五大中文大模型数据集与能力深度解析:DeepSeek、Qwen、腾讯元宝、文心一言、Kimi)


如整理有误,欢迎及时指正!

1. DeepSeek(深度求索)

1.1 数据集构成

  • 核心数据源

    • 数学与代码​(占比40%):
      • ProofPile:包含数学定理证明、奥赛试题的解题过程(LaTeX格式)
      • GitHub精选:过滤Star>100的代码仓库,保留Python/Java/C++代码
    • 通用文本​(35%):
      • 中文维基百科(2023更新版)+ 英文Books3语料库
      • 科技论文(arXiv中计算机、数学领域论文)
    • 领域数据​(25%):
      • 法律文书(裁判文书网公开判决书)
      • 金融报告(A股/港股上市公司年报)
  • 数据量级

    • 总规模:8万亿Token(DeepSeek-R1版本)
    • 代码数据:1.2万亿Token(Python占比60%)

1.2 处理技术

  • 去重策略
    • 基于MinHash的文档级去重(相似度>95%的文本丢弃)
    • 代码数据使用AST(抽象语法树)去重
  • 质量过滤
    • 数学数据保留完整解题步骤(删除仅含答案的样本)
    • 使用规则引擎过滤低质量代码(如注释率<10%的文件)

2. Qwen(通义千问,阿里云)

2.1 数据集构成

  • 核心数据源

    • 多语言混合​(中文70%、英文20%、其他10%):
      • 中文:人民日报语料、网络小说、古汉语文献(四库全书精选)
      • 小语种:日韩语新闻、东南亚电商评论(Lazada/Shopee爬取)
    • 对话数据​(15%):
      • 人工构造的指令-回答对(涵盖客服、教育场景)
      • 社交媒体对话(微博、知乎问答去敏处理)
    • 代码数据​(10%):
      • GitHub热门仓库(Apache License 2.0协议项目)
  • 数据量级

    • 总规模:3万亿Token(Qwen-7B版本)
    • 多模态数据:5亿图文对(来自电商平台商品描述)

2.2 处理技术

  • 对齐优化
    • 代码数据格式统一(转换为函数级代码块+注释)
    • 古文数据添加现代汉语翻译对照
  • 安全过滤
    • 政治敏感词黑名单(覆盖2000+敏感实体)
    • 使用BERT-NSFW模型过滤色情暴力内容

3. 腾讯元宝(Tencent Yuanbao)

3.1 数据集构成

  • 核心数据源

    • 社交数据​(50%):
      • 微信/QQ群聊记录(匿名化处理,去除个人ID)
      • 公众号文章(财经、游戏、生活类垂直领域)
    • 多模态数据​(30%):
      • 腾讯视频弹幕+字幕(覆盖影视、综艺、体育)
      • 全民K歌用户录音(语音转文本,标注情感标签)
    • 金融数据​(20%):
      • 沪深股市公告(2010-2023年结构化数据)
      • 基金研报(中信证券、中金公司等机构报告)
  • 数据量级

    • 总规模:预估2.5万亿Token(非公开披露)
    • 音视频数据:1000万小时语音+500万条短视频

3.2 处理技术

  • 隐私保护
    • 使用正则表达式替换手机号/银行卡号(如138****5678
    • 语音数据声纹脱敏(保留文本内容,丢弃音色特征)
  • 领域增强
    • 游戏术语标准化(如“打野”→《英雄联盟》术语库映射)
    • 构建金融实体知识库(股票代码→公司名称对照表)

4. 文心一言(ERNIE Bot,百度)

4.1 数据集构成

  • 核心数据源

    • 搜索增强数据​(40%):
      • 百度搜索日志(高频Query+点击网页摘要)
      • 知道/贴吧优质问答(采纳数>100的答案)
    • 知识图谱​(30%):
      • 百度百科(560万实体)+ 企业图谱(天眼查合作数据)
      • 医疗知识库(涵盖疾病、药品、诊疗方案)
    • 多模态数据​(20%):
      • 百度地图POI描述(1亿地点图文信息)
      • 好看视频字幕(覆盖科普、生活技巧类内容)
  • 数据量级

    • 总规模:10万亿Token(ERNIE 4.0版本)
    • 知识三元组:100亿级(实体-关系-属性)

4.2 处理技术

  • 知识注入
    • 将百科实体与文本共现关系嵌入训练(如“故宫→北京”)
    • 医疗数据经三甲医院专家审核(标注可信度等级)
  • 时效性更新
    • 每日增量更新搜索热点(如新上市股票代码)
    • 使用时间衰减模型(2020年前数据权重降低)

5. Kimi(月之暗面)

5.1 数据集构成

  • 核心数据源

    • 长文本数据​(60%):
      • 中文网络小说(起点中文网百万字连载作品)
      • 学术论文(CNKI中国知网CS领域PDF解析)
      • 法律文书(10万份判决书,平均长度1.5万字)
    • 结构化数据​(25%):
      • 上市公司财报(表格数据转Markdown格式)
      • GitHub项目文档(README.md+API说明)
    • 对话数据​(15%):
      • 模拟技术问答(Stack Overflow问题+人工扩展回答)
  • 数据量级

    • 总规模:1.8万亿Token(Kimi-7B版本)
    • 单文档最长:200万字符(《红楼梦》全本+注释)

5.2 处理技术

  • 长文本优化
    • 分段训练策略(每4k Token设注意力缓存节点)
    • 使用RoPE位置编码扩展至200k上下文
  • 表格处理
    • 财报数据行列对齐(合并跨页表格的重复表头)
    • 使用正则抽取HTML表格转为Markdown

6. 关键指标对比表

特性DeepSeekQwen腾讯元宝文心一言Kimi
代码能力⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
数学能力⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
多模态支持文本图文图文/音视频图文文本
上下文长度32k+8k-32k4k-16k4k-16k200k+
中文特色优势代码解题古文翻译网络热梗实时搜索长文档解析
行业落地案例量化金融跨境电商微信生态营销智能交通法律文书分析

7. 开发者选型指南

  • 数据透明度:Qwen > DeepSeek > 文心一言 > Kimi > 腾讯元宝
  • 领域适配性
    • 金融量化:​DeepSeek​(财报分析代码生成)
    • 医疗问答:​文心一言​(百度健康知识库支持)
    • 多语言客服:​Qwen​(支持东南亚小语种)
    • 游戏NPC对话:​腾讯元宝​(社交语料+情绪识别)
    • 合同审查:​Kimi​(长文本条款比对)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值