一、数据
1、开放高质量语料数据:书生万卷1.0(2TB)+书生万卷CC(400GB)
2、数据获取https://opendatalab.org.cn/
二、预训练
1、高可拓展:千卡加速效率92%
2、性能优化:hybrid zero加速达50%
3、兼容主流:可接入huggingface
4、易用性:修改配置即可训练
三、微调
1、增量续训:无需制作数据,只需添加文章、代码等内容
有监督微调:制作问答数据
2、微调框架XTuner:支持算法及生态全,软硬件兼容性强
四、部署
1、部署框架LMDeploy:全流程解决方案、高效推理引擎、工具链易用
2、推理性能优于vLLM
五、评测
1、compassRank--中立全面的性能榜单:大语言模型+多模态模型评测
2、compasskit--大模型评测全栈工具链:数据污染检测、长文本能力评测、更丰富的模型推理接入、双语主观评测
3、compasshub--评测基准社区
六、智能体
1、智能体框架--Lagent:支持多类型智能体能力、支持多种大模型、易拓展
2、智能体工具箱--AgentLego:前沿算算法、支持主流智能体系统、灵活接口调用、易部署