Hunyuan 中小模型:0.5B、1.8B、4B、7B
腾讯混元团队开源的中小尺寸模型,为开发者提供了高性能与低成本部署的平衡方案,而非一想到投产,就因为成本望而却步。
原内容出自腾讯混元的视频直播:手机就能跑的大模型 技术解读和上手实践
模型链接:cnb github modelscope
预训练
- 数据决定了模型的高度 / 上限
- 使用了大约是全世界出版物20倍量级数据训练(是去重和清洗后的量)
- 保证数据多样性,来源足够广泛,包含多学科
- 自研网页解析工具,解决网页广告数据误处理、表格数据丢失严重、需要多步点击才能获得等问题。提升解析度到80%
- 三阶段训练策略,基础训练→关键数据优化(数据配比、长上下文扩展、灵活调整训练策略)→最后优化,其中,对长上下文扩展,进行分阶段(32K→256K窗口扩展)实现,解决因为拔高小模型某一维度的能力而造成其通用指标下降的问题
- 原生256k能力长文本,与RAG方案的区别(受限于检索能力),原生的文本能力可以植入到模型
- 小模型特性:常温衰减性,遗忘性大,成本低,
后训练
两阶段:推理能力的深度优化+全场景通用能力的能力优化
步骤:先监督微调(SFT),再强化学习(RL)
- 推理做的好后可以使得模型在非推理场景中出现一些反思和回溯的能力
- RL效果可验证;通用场景效果是很难准确验证的,一般使用评分制(使用单独的模型 / Agent)
- 融合快慢融合推理模式(可以结合意图识别理解),一次部署就可以实现高灵活性
- 分别构造对应快慢思考的数据集,同时添加奖惩(reward)机制
- 评估工具(在研发过程中必要性非常高):用来复用、扩展、验证
Agent高质量合成数据引擎
从预训练 到 后训练,距离好的模型还要……
- fine-tuning
- 压缩,动态量化、静态量化