HyperAI超神经的新栏目来啦~每周一超神经编辑部会精选上一周更新在 hyper.ai 官网的内容(数据集、AI4S 论文案例、百科词条)发布在这里。欢迎直接访问 hyper.ai 查看全部内容哦!
1 月 15 日-1 月 21 日,hyper.ai 官方网站更新速览:
-
优质公共数据集:10 个
-
AI4S 论文案例:2 篇
-
热门百科词条:10 条
访问官网:https://hyper.ai/
公开数据集精选
1. CrossDock2020:ResGen 研究处理的数据集
该数据集的初始数据包含超过 2,200 万个蛋白质-小分子配对 (protein–ligand pairs)。该数据集可用于蛋白质-小分子相互作用研究,特别是用于评估分子对蛋白质口袋的结合能力。
直接使用:
https://hyper.ai/datasets/29021
2. RJUA-QA 首个中文医疗专科问答推理数据集
RJUA-QA 是一个创新的医学泌尿外科专业问答推理数据集。该数据集由蚂蚁集团医学 LLM 团队与上海交通大学医学院附属仁济医院泌尿外科专家团队合作创建。该数据集的开发旨在将真实的临床患者数据转换为虚拟患者临床对话,以 Q-context-A(问题-上下文-答案)格式呈现。
直接使用:
https://hyper.ai/datasets/28970
3. MetaMathQA 数学推理数据集
为了提升模型的正向和逆向推理能力,剑桥、港科大、华为的研究者基于两个常用的数学数据集(GSM8K 和 MATH)提出了 MetaMathQA 数据集:一个覆盖面广、质量高的数学推理数据集。MetaMathQA 由 395K 个大语言模型生成的正向逆向数学问答对组成。
直接使用:
https://hyper.ai/datasets/28954
4. M³IT 多模式多语言指令调优数据集
该数据集由 40 个数据集组成,其中包括 240 万个实例和 400 条手动编写的任务指令,并重新格式化为视觉到文本结构。数据集编译了经典视觉语言任务的各种任务,包括字幕、视觉问答(VQA)、视觉条件生成、推理和分类。
直接使用:
https://hyper.ai/datasets/29048
5. ChatHaruhi-RolePlaying 角色扮演对话数据集
ChatHaruhi 是一个包含 32 个中文/英文电视/动漫角色和超过 54k 模拟对话的数据集。大型语言模型构建的角色扮演聊天机器人引起广泛关注,为了模仿特定虚构角色,研究团队提出了一种算法,通过改进的提示和从脚本中提取的字符的记忆来控制语言模型。通过收集电影、小说、剧本的语料,并进行结构化的抽取,研究团队收集了超过 23000 条以上的对话信息。
直接使用:
https://hyper.ai/datasets/28926
更多本周更新数据集,请访问:
https://hyper.ai/datasets
ScienceAI 论文案例精选
1. 比最优技术快 8 倍:浙大侯廷军等人提出 ResGen,基于蛋白质口袋的 3D 分子生成模型
浙江大学与之江实验室研究团队提出了一种基于蛋白质口袋 (protein pocket) 的 3D 分子生成模型——ResGen,与以往最优技术相比,速度提升 8 倍,成功地生成了具有更低结合能和更高多样性的类药物分子。该论文已发表于「Nature」期刊。
查看完整报道:
https://hyper.ai/news/29026
2. 中科院罗小舟团队提出 UniKP 框架,大模型 + 机器学习高精度预测酶动力学参数
中国科学院深圳先进技术研究院罗小舟团队提出了,基于酶动力学参数预测框架 (UniKP),实现多种不同的酶动力学参数的预测。该论文已发表于「Nature」期刊。
查看完整报道:
https://hyper.ai/news/29000
热门百科词条精选
1. Sigmoid 函数 (Sigmoid function)
2. 马尔可夫链 (Markov Chain)
3. 提示词攻击 (Prompt Injection)
4. 奖励函数模型 (Reward Model)
5. 提示工程 (Prompt Engineering)
这里汇编了数百条 AI 相关词条,让你在这里读懂「人工智能」:
https://hyper.ai/wiki
————————————————————————————————————
以上就是本周编辑精选的全部内容,如果你有想要收录 hyper.ai 官方网站的资源,也欢迎留言或投稿告诉我们!
下周再见!
关于 HyperAI超神经 (hyper.ai)
HyperAI超神经 (hyper.ai) 是国内领先的人工智能及高性能计算社区,致力于成为国内数据科学领域的基础设施,为国内开发者提供丰富、优质的公共资源,截至目前已经:
-
为 1200+ 公开数据集提供国内加速下载节点
-
收录 300+ 经典及流行在线教程
-
解读 100+ AI4Science 论文案例
-
支持 500+ 相关词条查询
-
托管国内首个完整的 Apache TVM 中文文档
访问官网开启学习之旅:
https://hyper.ai/