五大中文大模型数据集与能力深度解析:DeepSeek、Qwen、腾讯元宝、文心一言、Kimi
如整理有误,欢迎及时指正!
1. DeepSeek(深度求索)
1.1 数据集构成
-
核心数据源:
- 数学与代码(占比40%):
- ProofPile:包含数学定理证明、奥赛试题的解题过程(LaTeX格式)
- GitHub精选:过滤Star>100的代码仓库,保留Python/Java/C++代码
- 通用文本(35%):
- 中文维基百科(2023更新版)+ 英文Books3语料库
- 科技论文(arXiv中计算机、数学领域论文)
- 领域数据(25%):
- 法律文书(裁判文书网公开判决书)
- 金融报告(A股/港股上市公司年报)
- 数学与代码(占比40%):
-
数据量级:
- 总规模:8万亿Token(DeepSeek-R1版本)
- 代码数据:1.2万亿Token(Python占比60%)
1.2 处理技术
- 去重策略:
- 基于MinHash的文档级去重(相似度>95%的文本丢弃)
- 代码数据使用AST(抽象语法树)去重
- 质量过滤:
- 数学数据保留完整解题步骤(删除仅含答案的样本)
- 使用规则引擎过滤低质量代码(如注释率<10%的文件)
2. Qwen(通义千问,阿里云)
2.1 数据集构成
-
核心数据源:
- 多语言混合(中文70%、英文20%、其他10%):
- 中文:人民日报语料、网络小说、古汉语文献(四库全书精选)
- 小语种:日韩语新闻、东南亚电商评论(Lazada/Shopee爬取)
- 对话数据(15%):
- 人工构造的指令-回答对(涵盖客服、教育场景)
- 社交媒体对话(微博、知乎问答去敏处理)
- 代码数据(10%):
- GitHub热门仓库(Apache License 2.0协议项目)
- 多语言混合(中文70%、英文20%、其他10%):
-
数据量级:
- 总规模:3万亿Token(Qwen-7B版本)
- 多模态数据:5亿图文对(来自电商平台商品描述)
2.2 处理技术
- 对齐优化:
- 代码数据格式统一(转换为函数级代码块+注释)
- 古文数据添加现代汉语翻译对照
- 安全过滤:
- 政治敏感词黑名单(覆盖2000+敏感实体)
- 使用BERT-NSFW模型过滤色情暴力内容
3. 腾讯元宝(Tencent Yuanbao)
3.1 数据集构成
-
核心数据源:
- 社交数据(50%):
- 微信/QQ群聊记录(匿名化处理,去除个人ID)
- 公众号文章(财经、游戏、生活类垂直领域)
- 多模态数据(30%):
- 腾讯视频弹幕+字幕(覆盖影视、综艺、体育)
- 全民K歌用户录音(语音转文本,标注情感标签)
- 金融数据(20%):
- 沪深股市公告(2010-2023年结构化数据)
- 基金研报(中信证券、中金公司等机构报告)
- 社交数据(50%):
-
数据量级:
- 总规模:预估2.5万亿Token(非公开披露)
- 音视频数据:1000万小时语音+500万条短视频
3.2 处理技术
- 隐私保护:
- 使用正则表达式替换手机号/银行卡号(如
138****5678
) - 语音数据声纹脱敏(保留文本内容,丢弃音色特征)
- 使用正则表达式替换手机号/银行卡号(如
- 领域增强:
- 游戏术语标准化(如“打野”→《英雄联盟》术语库映射)
- 构建金融实体知识库(股票代码→公司名称对照表)
4. 文心一言(ERNIE Bot,百度)
4.1 数据集构成
-
核心数据源:
- 搜索增强数据(40%):
- 百度搜索日志(高频Query+点击网页摘要)
- 知道/贴吧优质问答(采纳数>100的答案)
- 知识图谱(30%):
- 百度百科(560万实体)+ 企业图谱(天眼查合作数据)
- 医疗知识库(涵盖疾病、药品、诊疗方案)
- 多模态数据(20%):
- 百度地图POI描述(1亿地点图文信息)
- 好看视频字幕(覆盖科普、生活技巧类内容)
- 搜索增强数据(40%):
-
数据量级:
- 总规模:10万亿Token(ERNIE 4.0版本)
- 知识三元组:100亿级(实体-关系-属性)
4.2 处理技术
- 知识注入:
- 将百科实体与文本共现关系嵌入训练(如“故宫→北京”)
- 医疗数据经三甲医院专家审核(标注可信度等级)
- 时效性更新:
- 每日增量更新搜索热点(如新上市股票代码)
- 使用时间衰减模型(2020年前数据权重降低)
5. Kimi(月之暗面)
5.1 数据集构成
-
核心数据源:
- 长文本数据(60%):
- 中文网络小说(起点中文网百万字连载作品)
- 学术论文(CNKI中国知网CS领域PDF解析)
- 法律文书(10万份判决书,平均长度1.5万字)
- 结构化数据(25%):
- 上市公司财报(表格数据转Markdown格式)
- GitHub项目文档(README.md+API说明)
- 对话数据(15%):
- 模拟技术问答(Stack Overflow问题+人工扩展回答)
- 长文本数据(60%):
-
数据量级:
- 总规模:1.8万亿Token(Kimi-7B版本)
- 单文档最长:200万字符(《红楼梦》全本+注释)
5.2 处理技术
- 长文本优化:
- 分段训练策略(每4k Token设注意力缓存节点)
- 使用RoPE位置编码扩展至200k上下文
- 表格处理:
- 财报数据行列对齐(合并跨页表格的重复表头)
- 使用正则抽取HTML表格转为Markdown
6. 关键指标对比表
特性 | DeepSeek | Qwen | 腾讯元宝 | 文心一言 | Kimi |
---|---|---|---|---|---|
代码能力 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐ | ⭐⭐ | ⭐⭐⭐⭐ |
数学能力 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐⭐ |
多模态支持 | 文本 | 图文 | 图文/音视频 | 图文 | 文本 |
上下文长度 | 32k+ | 8k-32k | 4k-16k | 4k-16k | 200k+ |
中文特色优势 | 代码解题 | 古文翻译 | 网络热梗 | 实时搜索 | 长文档解析 |
行业落地案例 | 量化金融 | 跨境电商 | 微信生态营销 | 智能交通 | 法律文书分析 |
7. 开发者选型指南
- 数据透明度:Qwen > DeepSeek > 文心一言 > Kimi > 腾讯元宝
- 领域适配性:
- 金融量化:DeepSeek(财报分析代码生成)
- 医疗问答:文心一言(百度健康知识库支持)
- 多语言客服:Qwen(支持东南亚小语种)
- 游戏NPC对话:腾讯元宝(社交语料+情绪识别)
- 合同审查:Kimi(长文本条款比对)