介绍了“书生·浦语”大规模语言模型的开源生态系统,涵盖InternLM2模型、数据源、训练、调优、部署、评估和应用。
InternLM2模型:目前开源的有InternLM2-7B和InternLM2-20B,支持20w token的上下文窗口;在推理、数学和代码等任务上的评测比肩ChatGPT;优秀的对话和创作体验;支持多种工具多轮调用。
数据:在https://opendatalab.com/home发布了6000+数据集,为中国大模型语料数据联盟开源数据服务指定平台,最新发布了万卷-CC的1T token的高质量英文网络文本数据集。
训练:InternEvo是一款开源的轻量级训练框架,支持千卡级的并行计算。
调优:xtuner是一款高效的大模型微调库,支持续训、指令微调和智能体微调,包含全参数微调、QLoRA和LoRA等算法。
部署:LMDeploy提供大模型在GPU部署的全流程解决方案,包括模型轻量化、推理和服务。
评估:opencompass包含compassrank、compasskit和compasshub三个组件,通过主观评测和客观评测的方式方便大模型的评测。
应用:lagent和agentlego提供了LLM Agent相关的工具和服务。
总之,InternLM提供了完整的大模型学习和使用生态,方便相关研究者进行学习和使用。