智源十大行业高质量数据集开放申请，经验证可显著提升模型行业能力！

最新推荐文章于 2025-03-13 14:51:24 发布

智源研究院官方账号

最新推荐文章于 2025-03-13 14:51:24 发布

阅读量538

点赞数 2

文章标签：人工智能 AI

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/eagleofstar/article/details/140179329

版权

近日，智源研究院非开源、高质量行业预训练数据集开放申请。该数据集覆盖医疗、教育、文学、金融、旅游、法律、体育、汽车、新闻、农业十大行业，总量达597GB。

智源研究院对较难获取的非开源高质量数据、合作伙伴贡献的数据、有行业特征的开源数据进行了基于规则及模型的过滤、数据去重等加工处理，并针对中文数据标注了字母数字比例、平均行长度、语言的置信度得分、最大行长度、困惑度等12种标签，使得行业数据集领域特征密度明显高于通用训练数据，适合特定行业业务问题下模型的前置继续训练或混合数据训练。

其中，医疗行业数据的价值和效果，已在智源研究院医疗语言模型Aquila-Med的训练过程中得到了验证。

Aquila-Med是针对医疗领域的复杂性场景的解决方案，基于Aquila的大规模双语医疗语言模型，在持续预训练阶段，Aquila-Med使用了高质量行业数据集中的医疗数据，实验结果表明：持续预训练阶段，Aquila-Med在多个基准测试上表现良好，特别是在MMLU上的表现显著提升（见图1）。

图1

模型对齐阶段，智源从医学主题问题和医生-患者咨询两个方面进行评估，Aquila-Med-Chat在指令跟随能力方面表现出色。Aquila-Med-Chat (RL)在C-Eval上以及单轮多轮对话能力的表现尤为突出（见图2-图5）。因此，Aquila-Med在多个基准测试上的强大表现验证了医疗行业数据集的质量和训练方法的有效性。

图2

图3

图4

图5

目前，加入智源研究院“行业数据集-场景应用创新计划”即有机会获得行业数据集资源，助力大模型企业的行业模型训练和应用场景落地。

立即参与请点击：https://jwolpxeehx.feishu.cn/share/base/form/shrcnoftHAXa9CZJ9los8PaeUPg

同时，欢迎加入智源数据群，探讨数据集和模型落地：

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。