项目地址:GitHub - InternLM/tutoriald
第一节课视频地址:书生·浦语大模型全链路开源体系_哔哩哔哩_bilibili
书生·浦语大模型介绍
书生·浦语大模型涵盖多个参数量级的模型,适用多样场景:
书生·浦语大模型的应用
1. 模型选型:根据开源模型在各项任务中的表现,结合自身业务场景进行模型选型。
2. 判断业务场景的复杂度。如果业务场景简单,可以采用prompt engineering的方式;如果业务场景复杂,则需要对模型本身进行调整。
3. 在对模型进行微调前,需考虑算力,进而决定是采用全参数微调还是部分参数微调(如lora)。
4. 模型微调完成后,需考虑是直接使用模型,还是构建智能体解决更加复杂的问题。
5. 模型的评测,上线。
6. 模型部署,需考虑资源利用效率以及吞吐量。
书生·浦语全链条开源开放体系
数据 —— 书生·万卷
书生·万卷提供超过2TB的总数据量,数据经过多模态融合、精细化处理以及价值观对齐。
数据——OpenDataLab数据开放平台
提供了开放数据以及智能标注工具
预训练
微调
支持增量续训和有监督微调
高效微调框架XTuner
评测——OpenCompass
首先,介绍了国内外大模型的主流评测体系
OpenCompass集百家所长,将大模型分的评测为六个大维度,并对每个维度分别进行细致、全面的评价。
部署——LMDeploy
针对大语言模型的特点和技术挑战进行部署方案的优化。
智能体——Lagent & AgentLego
智能体可以解决大语言模型的诸多局限性