书生大模型全链路开源体系

通过这篇简介,可以简要了解一下书生·浦语整个开放体系的主要结构和链路。

从模型的开源开放体系、数据收集整理、模型训练、微调、评测、搜索引擎到AI应用的部署等方面进行了介绍。其中,最新版本的书生·浦语大模型2.5在推理能力和短期记忆等方面有质的飞跃,同时开源了labelLLM项目方便标注数据。

概览:
书生·浦语系列开放体系中,目前最具有代表性的就是书生·浦语2.5,特点:

相对于Intern LM 2来说,综合推理能力性能提升20%
支持超长背景文字的理解、精确处理
自主规划、搜索并可以完成较为复杂的任务。
核心技术思路:
在当前模型的基础上,通过数据过滤,智能评估生成预训练数据;以及指令生成、辅助标注生成对其数据,并获取下个版本的模型,循环往复进行迭代。
在数据合成方案中,大致使用三种核心思路创造合成高质量数据:

基于规则构造数据:比如代码、公式等格式或者半格式化去塑造数据;
基于模型的数据扩充:在一些基础代码中增加符合更多需求的功能代码;
基于反馈:也就是通过人工提示的方式去主观优化。值得的是,在这种方法中,可以通过lableLLM开源工具进行NLP标注。
领先的推理能力:
通过大海捞针实验,模型在处理超长背景知识的时候,具有良好的表现。在十万TOKEN中可以百分百定位;在百万级也基本上都可以覆盖。
同时,可以提供更好语言模型分析的,尤其在跨文档的理解、支持逻辑自洽上,在未来有可能更通用地替代RAG的方式。
在基于规划和抖索解决复杂问题方面,模型也表现出与人类更为贴近的思考过程,并可以通过类似脑图的形式进行分步骤的表现形式。

全链条开源:
从数据、预训练、微调、部署、评测、应用六个关键环节均有一系列的模型,并可融入社区生态。

数据:书生万卷:惊喜处理的开源多模态语料库。
具有海量及的开放数据,并提供服务于工具。
在数据提取方面,可以使用minerU https://github.com/opendatalab/MinerU
Label LLM Label U——数据标注很好用,比如在问答、对话、偏好等,甚至是视频标注。
InternEvo:预训练的框架
进行了性能优化,尤其是分布式训练
XTuner:多种微调、偏好对齐,支持千亿级别的参数,百万级上下文
致力于 零显存浪费的偏好对其方案
支持很多其他开源模型,由多种微调算法、偏好对其算法,并具有自动优化加速,适配多种硬件
OpenCompass:开源评测体系
司南评测是大模型评测国标的主要参与单位。
工具 基准 榜单三位一体。
助力通用人工智能发展。
LMDeploy:部署框架
支持主流接口,量化、引擎、服务。
应用:具有mindsearch, lagend, minerU,茴香豆等不同领域的饮用。
从LLM向智能体Agent的发展:更新的知识获取,回复可靠性、数据计算,以及和其他API或者工具的交互使用。
轻量级智能体Lagent:支持多种类型,比如React,Rewoo,AutoGPT;并且可以支持多种大语言模型,以及其他工具。
茴香豆:企业级的知识库构建工具,开源、务实,支持7中文档格式的更新生效;简单便宜,扩展性强。

### 书生大模型 L1G1000 技术文档概述 书生大模型全链路开源体系提供了详尽的技术文档,涵盖了从基础架构搭建到具体应用场景实现的各个方面[^3]。该体系由上海人工智能实验室开发,旨在为用户提供全面的支持。 #### 主要组成部分 - **数据处理工具**:提供了一系列高效的数据预处理方法和技术,确保输入数据的质量和一致性。 - **技术栈**:包括但不限于自然语言处理(NLP),计算机视觉(CV)等领域所需的各种算法库和支持框架[^2]。 - **应用实例** - **MINSEARCH**: 基于AI驱动的搜索引擎解决方案,利用先进的检索技术和机器学习优化搜索体验。 - **RAG (Retrieval-Augmented Generation)**: 将传统的信息检索系统与现代的语言生成能力相结合,实现了更精准的内容理解和表达转换服务。 - **LabelLLM Project**: 提供了一套完整的自动化标签生成流程,极大地方便了NLP任务中的数据标注工作。 - **OpenCompass Platform**: 构建了一个公开透明的大规模评测环境,有助于推动整个行业的健康发展并提高模型评估的标准性。 ```python # 示例代码片段展示如何加载预训练好的BookSheng模型进行推理预测 from transformers import AutoModelForCausalLM, AutoTokenizer tokenizer = AutoTokenizer.from_pretrained("shanghaiai/booksheng-l1g1000") model = AutoModelForCausalLM.from_pretrained("shanghaiai/booksheng-l1g1000") input_text = "你好世界" inputs = tokenizer(input_text, return_tensors="pt") outputs = model.generate(**inputs) print(tokenizer.decode(outputs[0], skip_special_tokens=True)) ``` 此段Python脚本展示了通过Hugging Face Transformers库快速上手使用书生大模型的方法之一。只需几行简单的命令即可完成对给定文本序列的编码解码操作,并获得相应的输出结果。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值