DeepSeek、豆包、Kimi等虽然都是大模型训练的产物,但是使用的训练模型不一样,导致功能不一样。
DeepSeek使用的是推理模型,其他使用的是普通模型。
这里先分两类,一类是DeepSeek简称DS,一类是其他包括豆包、Kimi等。
由于两者使用的模型不同导致核心目标不一样:
- 其他:文本生成、基础问答、信息检索
- DS: 多步骤逻辑推理、复杂问题解决、因果分析
训练数据不一样:
- 其他:通用语料(网页、书籍、对话等)
- DS:增加逻辑题、数学题、科学推理等结构化数据
训练方法不一样:
- 其他:自回归语言建模
- DS:结合思维链(CoT)、程序辅助、符号逻辑增强
输出特点不一样
- 其他:流畅但可能缺乏深度逻辑
- DS:结构化、分步骤、注重因果链推导