【书生大模型实战营】L1G1000 书生大模型全链路开源体系

最新推荐文章于 2025-05-12 23:16:33 发布

qq_43917368

最新推荐文章于 2025-05-12 23:16:33 发布

阅读量1.6k

点赞数 41

文章标签：笔记

本文链接：https://blog.csdn.net/qq_43917368/article/details/144462393

版权

本文记录了在学习和了解【书生大模型全链路开源体系】过程中的一些笔记。开源精神，YYDS！

书生·浦语大模型全链路开源体系概览

该体系涵盖了数据、预训练、微调、部署、测评和应用的全链路开源解决方案，几乎覆盖了大模型开发的整个过程。接下来，我们将依次介绍这些开源工具在各个阶段的应用。

书生·万卷 1.0：这是书生·万卷多模态语料库的首个开源版本，包含三大数据集：文本数据集、图文数据集和视频数据集，总数据量超过2TB。该语料库基于大模型数据联盟构建，上海AI实验室对部分数据进行了细粒度清洗、去重和价值对齐，形成了书生·万卷1.0，具备以下四大特征：
- 多元融合：跨领域、多模态的数据融合。
- 精细处理：数据经过深度清洗，质量高。
- 价值对齐：优化数据集的价值，使其更具应用潜力。
- 易用高效：便捷的数据处理流程，帮助研究者快速上手。
传送门：书生·万卷语料库 GitHub 仓库

InternEvo：InternEvo是一个轻量级的开源训练框架，旨在支持无需大量依赖关系的大模型预训练。它具有以下特点：
- 支持在具有上千GPU的大规模集群上进行预训练。
- 可在单个GPU上进行微调，同时实现显著的性能优化。
- 当在1024个GPU上进行训练时，InternEvo的加速效率接近90%。
传送门：InternEvo GitHub

XTuner：XTuner是一个高效、灵活、全能的轻量化大模型微调工具库，具备以下特性：
- 高效：支持在8GB显存下微调7B模型，同时支持多节点跨设备微调更大模型（70B+）。支持自动分发高性能算子（如FlashAttention、Triton kernels等），加速训练吞吐。
- 灵活：兼容多种大语言模型（如InternLM、Mixtral-8x7B、Llama 2等），以及多模态图文模型（如LLaVA）。支持各种微调算法（如QLoRA、LoRA、全量参数微调等）。
- 全能：支持增量预训练、指令微调和Agent微调，且预定义了多个开源对话模版，支持与开源或训练所得模型进行对话。
传送门：XTuner GitHub

LMDeploy：LMDeploy是由MMDeploy和MMRazor团队联合开发的全套轻量化、大规模模型部署解决方案，具备以下特点：
- 高效推理：支持持久化批处理、动态拆分与融合等特性，推理性能是vLLM的1.8倍。
- 可靠量化：支持权重量化和K/V量化，4bit模型的推理效率是FP16的2.4倍。
- 便捷服务：支持多模型在多机、多卡上的推理服务，并且支持有状态推理，缓存对话历史，显著提升长文本多轮对话的效率。
- 卓越兼容性：支持KV缓存量化、AWQ和自动前缀缓存同时使用。
传送门：LMDeploy GitHub

OpenCompass：这是一个开源、高效且全面的大模型评测体系，提供了一个开放平台，支持大规模模型的评估。用户可以利用这个平台进行模型的全方位测评，确保其性能和可靠性。

传送门：OpenCompass 网站
GitHub：OpenCompass GitHub

MindSearch：MindSearch是一个开源的思索式搜索应用，致力于提供精准高效的搜索体验。

传送门：MindSearch GitHub
Lagent：Lagent是一个轻量级的开源智能体框架，旨在帮助用户高效构建基于大语言模型的智能体，同时提供多种增强工具以提升模型能力。

传送门：Lagent GitHub
中文教程：Lagent 中文教程
AgentLego：AgentLego是一个多模态工具包，提供了丰富的API接口，用户可以像搭建乐高积木一样，快速构建自定义的智能体。

传送门：AgentLego GitHub
MinderU：MinderU是一个高效的文档解析工具，旨在帮助用户快速解析和处理各种类型的文档。

传送门：MinderU GitHub
HuixiangDou：HuixiangDou是基于专业知识库的群聊助手，能够提升团队沟通效率。

传送门：HuixiangDou GitHub