【书生大模型实战营（暑假场）】基础任务一书生大模型全链路开源体系

Syntax_CD

已于 2024-08-15 03:54:47 修改

阅读量836

点赞数 27

分类专栏：书生大模型实战营地第三期文章标签：开源

于 2024-08-11 00:59:51 首次发布

本文链接：https://blog.csdn.net/Tongcheng_98/article/details/141091601

版权

书生大模型实战营地第三期专栏收录该内容

13 篇文章 0 订阅

订阅专栏

基础任务一书生大模型全链路开源体系

参考：

书生浦语大模型的开源体系经过一年努力，已实现从数据收集到模型部署的全链路打通。课程介绍了书生浦语的最新进展，包括7B和20B模型的开源及其性能提升。新版本模型在推理能力和上下文处理上表现优异，支持超长上下文和复杂任务解决。开源工具涵盖数据处理、模型微调、评测和部署，助力用户在科研和应用领域的创新。其性能也在不断向 ChatGPT 系列靠近。
InternLM发行时间线
书生浦语2.5 InternLM2.5 大模型的主要特点包括：

领先的推理能力：综合推理能力领先开源社区，且相比 InternLM2性能提升 20%，而且这种推理能力来自于模型原生，在没有 RAG等技术的加持下已经具有出色能力；
100 万字的上下文支持 ：100 万字超长上下文能力，处于开源模型前列，比最新的 GPT4o 的 128k 上下文能力还要多 10 倍左右；并且在大海捞针实验中也取得非常优秀的结果，即在超长文本的情况下，也能准确的定位给定信息的位置；
自主规划和搜索：可以在外部工具的加持下，比如 MindSearch，实现高效信息搜索整合，并针对复杂问题撰写专业回答，效果提升 60 倍；

其实现快速飞跃的技术思路为：

广泛使用模型参与自身迭代从而加速能力提升，即通过数据过滤和智能评估获得高质量预训练数据，指令生产和辅助标注获得对其数据，并通过持续迭代得到更好模型；
融合多种数据生成方案，即通过基于规则的数据构造，基于模型的数据扩充，和基于反馈的数据生成等实现高质量数据生成；

同时，书生浦语言也具有丰富的开源模型谱系，为不同需求的用户提供了丰富的应用生态，在模型尺寸方面，具有 1.8B，7B，20B，102B 等不同的选择，从易于端侧应用和开发者快速上手的超轻量模型到部分场景接近GPT-4的闭源模型，同时，也具有适合不同模态的模型。

并且，实现了数据，预训练，微调，部署，评测，应用等大模型生态的全链条开源，并且与 Hugging Face，TensorRT-LLM，LM Studio 等主流社区生态无缝链接。

全链条开源

数据层面，书生开源了总共 30+模态，7700+数据集，180TB 的数据，涉及图像，视频，token语料，音频，3D模型等，并且提供了配套的检索，下载，标注，采集工具。其中，值得注意的是：

Miner U：数据提取，支持 PDF，网页，电子书等多格式萃取生成高质量预训练/微调语料，支持将数学公式专户为markdown格式，支持图片和表格转换为多模态markdown格式；
Label LLM：专注高质量对话标注，并与多种模态数据实现的广泛兼容，同时支持多人协作和任务管理；
Label U：轻量级标注工具，支持图片，视频，音频等多种数据标注；

预训练层面，InternEVO框架支持千卡多规模训练，兼容 Hgugging Face以及 Nvida和 910B等软硬件生态，同时支持预训练+微调+RLHF的全场景覆盖；
InternEVO预训练
微调层面，微调 XTuner 适配多种微调和偏好对齐算法，并支持 HuggingFace，ModelScope模型和数据集，同时也金额自动优化加速，使得开发者无需关注复杂显存优化和加速细节，可支持千亿参数+百万上下文训练。同时在硬件层面，覆盖 NV 20系以上所有显卡，最低只需 8GB显存即可微调 7B模型。

评测方面，OpenCompass评测体系实现了工具-基准-榜单三位一体，广泛应用于头部大模型企业和科研机构，并参与了大模型评测国标指定，同时获得了 Meta官方推荐，是开源社区最完善评测体系之一，提供了超过 100+评测集50 万+题目。

部署方面，LMDeploy提供了推理接口，量化，引擎，服务等多种功能，可以实现高效推理，可靠量化，卓越的兼容性，便携的服务，有状态推理等功能，同时支持多种 LLM和 VLM；

书生开放体系也实现了由 LLM向智能体 Agent的转换，由于LLM具有一定的局限性，比如：

难以获取最新信息和知识
回复是否可靠
数学计算能力
工具的使用和交互

因此，在实际应用中，将LLM转化成智能体具有一定的迫切性，开源体系提供了轻量级智能体框架 Lagent，可以支持多种类型的智能体，并且支持融合多种大语言模型，同时简单易拓展并支持丰富的工具，比如生成，搜索，计算，解释代码，垂类 API等；

其中，
智能体 MindSearch 可以对问题进行分解和规划，模拟人脑的思维路径，去实现搜索，生成，整合，反馈，是一种非常有趣的设计；
茴香豆 Huixiangdou 则属于分群聊场景的 LLM知识助手，为即时通讯群聊场景设计，通过 RAG构建非参数记忆，利用外部知识提供实时更新信息，并结合结构化知识库增强行为可解释性。