书生·浦语全链条开源开放体系流程
数据→预训练→微调→部署→评测→应用
高质量数据语料 :
预训练: ① 高可扩展 ②极致性能优化 ③兼容主流 ④开箱即用
微调:有监督微调,增量续训
部署: (轻量化)
一般流程: 评测→构建智能体→模型评测→模型部署
评测 :
三模块: CompassRank:中立全面的性能榜单
CompassKit:大模型评测全栈工具链
CompassHub:高质量评测基准社区(开源开放)
应用:
书生·浦语大模型开源历程
语言建模,新一代数据清洗技术的特点:
多维度数据价值评估,高质量语料驱动的数据富集,有针对性的数据补齐
InternLM2的主要特点:
超长上下文、综合性能全面提升、优秀的的对话和创作体验、工具调用能力整体提升、突出的数理能力和实用的数据分析能力
更新后的特点:AI对话生成,充满人文关怀的对话,创造力想象力,强大的内计算能力(高准确率,强大计算力)→代码解释器,数据分析功能 强大等等。
书生·浦语全链条开源开放体系: 数据→预训练→微调→部署→评测→应用
应用领域
综合性分析考虑,
优点:整体能力有较大提升;
“理科”能力和模型尺寸关联性高
缺点:复杂推理仍是短板;
模型主客观性能需要综合参考