书生·浦语全链路开源体系介绍

最新推荐文章于 2025-05-09 11:50:47 发布

pwisnsijs

最新推荐文章于 2025-05-09 11:50:47 发布

阅读量1.7k

点赞数 42

文章标签：开源

本文链接：https://blog.csdn.net/pwisnsijs/article/details/141470180

版权

一、背景

随着人工智能技术的飞速进步，大模型技术已然成为当前人工智能研究的前沿焦点。2022年11月30日，美国OpenAI公司推出了划时代的ChatGPT通用对话系统，这一发布在全球范围内引起了巨大的轰动。ChatGPT上线仅60天，其月活跃用户数就突破了1亿大关，创下了互联网应用产品用户增长速度的新纪录。2023年3月14日，OpenAI乘胜追击，发布了性能更上一层楼的GPT-4模型，这一升级不仅展现了更高级别的人工智能能力，更在全球范围内引领了大模型技术的新浪潮。

这一技术飞跃不仅吸引了国外科技巨头的目光，它们纷纷加大投资力度，加速大模型技术的产业化进程，国内的一线企业也不甘落后，积极响应，竞相在大模型的新赛道上布局，力图把握认知智能大模型带来的历史性机遇。

二、开源历程

自本世纪初，科研人员便专注于开发专用模型以应对特定领域的挑战。然而，近年来，研究趋势已从“一对一”的专用模型转向了“一个模型对多种任务多种模态”的通用大模型。这一转变在2023年6月7日迎来了里程碑，当时InternLM发布了拥有千亿参数的语言大模型，并在同年7月6日进行了全面升级，使其支持8K语境和26种语言，同时宣布开源并免费商用。

此外，书生万卷1.0多模态预训练语料库和升级版的对话模型InternLM-Chat-7B v1.1也相继发布，这一系列进展使得模型能够从单纯的语言模型升级为具备智能体功能的模型。

2023年8月28日，InternLM的参数量进一步提升至123B，并在9月20日开源了增强版的InternLM-20B以及全线升级的工具链。最终，在2024年1月17日，InternLM2正式开源，其中包括InternLM2-7B和InternLM2-20B两种规格，每种规格又包含三个模型版本：InternLM2-Base、InternLM2和InternLM2-Chat。

三、书生·浦语2.5概述

一、强大推理能力，解锁复杂任务

推理能力领先：综合推理能力领先社区开源模型，相对InternLM2性能提升20%。
支持100万字上下文：百万字长文的准确理解和处理，性能处于开源模型前列。
自主规划和搜索：通过信息搜索和整合，针对复杂问题撰写专业回答，效率提升60倍。

二、产品优势与特点

强大的推理能力：书生·浦语2.5拥有领先的推理能力，能够有效处理复杂的任务。其模型在社区开源模型中表现出色，相对于InternLM2，性能提升了20%，显示出其在推理领域的强大实力。
广泛的支持：该产品支持100万字的上下文，这意味着它可以处理大量的文本数据，并对其进行准确的理解和处理。这种能力使其在处理长篇大论方面表现优异，处于开源模型前列。
自主规划与搜索：书生·浦语2.5还具备自主规划和搜索的能力。通过信息搜索和整合，它能够针对复杂问题撰写专业的回答，从而显著提高工作效率，效率提升高达60倍。这使得它在解决实际问题时更加高效和精准。

四、核心技术思路

在当前模型阶段，数据通过过滤和智能评估进行处理，然后生成指令并辅助标注。这些过程产生的预训练数据和对齐数据被用于训练更好的模型。这种技术思路的核心在于广泛使用模型参与自身的迭代，从而提升其性能和能力

五、开源模型谱系

InternLM系列模型涵盖了不同规模的版本，以满足多样化的应用需求，以下是各个版本的特点详细描述：
1. 8B版本：作为超轻量级的模型，8B版本的InternLM非常适合于端侧应用，如移动设备、嵌入式系统等，它能够提供快速响应同时不牺牲过多的计算资源。对于开发者来说，这个版本也极其适合快速学习和上手，因为它易于部署且对硬件要求不高，为开发初期的实验和原型设计提供了便利。
2. 7B版本：相较于8B版本，7B版本的模型在保持轻便性的同时，性能得到了显著提升。它不仅能够满足轻量级研究项目的需求，还能为各类应用提供强有力的支撑。7B版本的InternLM是那些需要在性能和资源消耗之间寻找平衡场景的理想选择。
3. 20B版本：当模型规模扩大到20B时，其综合性能得到了进一步的增强。这个版本的InternLM能够有效支持更加复杂的应用场景，无论是在自然语言处理、文本生成还是其他需要强大语言理解能力的任务中，都能够展现出其卓越的性能。
4. 102B版本：作为InternLM系列中规模最大的模型，102B版本在性能上达到了新的高度。它是一个性能强大的开源模型，能够在多种典型场景中展现出接近GPT-4的表现。这意味着无论是在科研、商业还是教育等领域，102B版本的InternLM都能够提供接近顶级水平的语言模型服务。
此外，InternLM系列还包含了以下几个专业领域的模型：
- InternLM-XComposer（灵笔）：这个版本的模型专为文本创作和编辑设计，能够提供更加流畅和自然的写作体验。
- InternLM-Math（数学）：专注于数学相关任务，如公式理解、数学问题解答等，为需要处理数学内容的用户提供精准的支持。
- InternLM-WQX（文曲星）：这个版本针对知识和问答场景进行了优化，能够更加高效地处理知识检索和问题解答任务，为用户提供准确和丰富的信息。

六、全链条开源，无缝连接社区生态

书生·浦语构建了一套全面的NLP生态系统，涵盖数据预处理至应用部署。以InterLM技术为核心，推动技术创新。推出的“书生·万卷”语料库丰富了数据多样性，InternEvo训练框架和XTuner算法提升了模型效率和适应性。MindSearch和Lagent等工具增强了搜索智能和开发能力。OpenCompass评测体系和LLMDeploy框架提高了技术透明度和部署效率。开源模型ollama和TensorRT-LLM等丰富了社区选择，MLX平台和llamafile支持研究。书生·浦语通过与社区合作，推动NLP领域的开源创新。

七、开源处理工具箱

Miner U是一个一站式的高质量数据提取工具，支持多种格式（如PDF、网页、电子书）的数据提取。它具有智能萃取功能，能够生成高质量预训练/微调语料。该工具还提供了复杂版面/公式精准识别和性能超过商业软件的特点。此外，Miner U还提供了PDF文档提取工具，方便用户从PDF文件中提取所需信息。
Label LLM则专注于LLM的对标标注，通过灵活多变的工具配置与多种数据模态的广泛兼容，为大规模量量身打造高质量的标注数据。该工具支持指令采集、偏好收集、对话评估等操作，并具备多人协作、任务管理、源码开放可魔改等特点。
Label U是一款轻量级开源标注工具，允许用户自由组合多种工具，无缝兼容多格式数据，同时支持载入预标注，加速数据标注效率。该工具支持图片、视频、音频等多种数据标注，并具有小巧灵活、AI标注导入二次人工精修等特点。

八、微调

书生·浦语大模型采用了InternLM-Train进行预训练。InternLM-Train是一个基于Transformer架构的预训练模型，拥有1040亿参数。通过在书生·万卷数据集上进行训练，模型具备了强大的语言理解和生成能力。它支持从8卡到千卡的训练，千卡训练效率高达92%，并且可以无缝接入HuggingFace等技术生态，支持各种轻量化技术。
为了进一步提升模型性能并适应特定任务，可以利用XTuner微调框架。XTuner能够根据不同任务需求对大模型进行微调，使其在特定领域或任务上表现更加出色。XTuner具有以下特点：
支持多种任务类型：包括增量预训练、指令微调和工具类指令微调。
多种微调方式：支持全量参数、LoRA、QLoRA等低成本微调，覆盖各种SFT场景。
兼容多种大语言模型：如InternLM、Llama、QWen、BaiChuan、ChatGLM等，适配多种开源生态，支持HuggingFace、ModelScope模型或数据集。
自动优化加速：如Flash Attention、DeepSpeed ZeRO，使开发者无需关注复杂的优化与计算加速细节。
支持多种硬件：覆盖NVIDIA 20系以上所有显卡，最低只需8GB显存即可微调7B模型。
多种数据格式：支持Alpaca、MOSS、OpenAI、Guanacao等数据格式。

九、部署和应用

书生·浦语大模型采用了LMDeploy部署框架，这是一个强大的工具，用于在GPU上部署大型语言模型（LLMs）。LMDeploy提供了从模型训练到部署的全流程解决方案，包括模型轻量化、推理和服务。

接口支持：LMDeploy支持多种编程接口，如Python、GRPC和RESTful，这使得开发者能够轻松地将大模型集成到他们的应用程序中。
量化支持：LMDeploy支持4bit和8bit量化，这是一种技术，通过减少数据表示的精度来降低模型的存储和计算成本，从而提高模型的推理效率。
推理引擎：LMDeploy支持多种推理引擎，包括TurboMind和PyTorch，这为开发者提供了灵活的选择，可以根据自己的需求选择最适合的推理引擎。
服务：LMDeploy支持多种服务，包括OpenAI-Server、Gradio和Triton Inference Server等，这些服务可以满足不同的应用场景和服务需求。

智能体Lagent

图中展示了该框架支持多种类型的智能体能力，包括ReAct、ReWoo和AutoGPT等。这些能力通过输入、选择工具、执行工具和结束条件四个步骤来完成。此外，还提到了灵活支持多种大语言模型，如GPT-3.5/4、Hugging Face Transformers和InternLM等。在简单易拓展，支持丰富的工具部分，列出了AI工具、能力拓展和Rapid API三个分类，每个分类下都有对应的工具或API，例如文生图、搜索、出行API、文生语音、计算器、财经API、图片描述、代码解释器和体育资讯API等

智能体MindSearch

MindSearch是一款基于AI技术的搜索应用，它将自然语言处理（NLP）技术应用于信息检索，以提高搜索的智能化水平。该应用能够理解用户的问题，并返回相关的、有用的搜索结果，而不是简单地匹配关键词。它支持多模态搜索，能够处理图像、视频等多媒体内容，提供全面的搜索体验。此外，MindSearch还具有个性化推荐功能，能够根据用户的搜索历史和偏好提供个性化的搜索结果推荐。作为一个开源项目，MindSearch鼓励社区参与，允许开发者贡献代码和提供反馈，以不断改进和扩展其功能。同时，它提供了多种集成方式，如API调用，使得它能够与其他应用程序和服务轻松集成。随着书生·浦语对NLP技术的持续研究和改进，MindSearch也将不断更新，以提供最新的搜索功能和性能优化。