【书生大模型实战营】L1G1000 书生大模型全链路开源体系

任务概览

本文记录了在学习和了解【书生大模型全链路开源体系】过程中的一些笔记。开源精神,YYDS!

目录

  1. 概述
  2. 数据
  3. 预训练
  4. 微调
  5. 部署
  6. 评测
  7. 应用

概述

书生·浦语大模型全链路开源体系概览

该体系涵盖了数据、预训练、微调、部署、测评和应用的全链路开源解决方案,几乎覆盖了大模型开发的整个过程。接下来,我们将依次介绍这些开源工具在各个阶段的应用。


数据

  • 书生·万卷 1.0:这是书生·万卷多模态语料库的首个开源版本,包含三大数据集:文本数据集、图文数据集和视频数据集,总数据量超过2TB。该语料库基于大模型数据联盟构建,上海AI实验室对部分数据进行了细粒度清洗、去重和价值对齐,形成了书生·万卷1.0,具备以下四大特征:

    • 多元融合:跨领域、多模态的数据融合。
    • 精细处理:数据经过深度清洗,质量高。
    • 价值对齐:优化数据集的价值,使其更具应用潜力。
    • 易用高效:便捷的数据处理流程,帮助研究者快速上手。

    传送门书生·万卷语料库 GitHub 仓库


预训练

  • InternEvo:InternEvo是一个轻量级的开源训练框架,旨在支持无需大量依赖关系的大模型预训练。它具有以下特点:

    • 支持在具有上千GPU的大规模集群上进行预训练。
    • 可在单个GPU上进行微调,同时实现显著的性能优化。
    • 当在1024个GPU上进行训练时,InternEvo的加速效率接近90%。

    传送门InternEvo GitHub


微调

  • XTuner:XTuner是一个高效、灵活、全能的轻量化大模型微调工具库,具备以下特性:

    • 高效:支持在8GB显存下微调7B模型,同时支持多节点跨设备微调更大模型(70B+)。支持自动分发高性能算子(如FlashAttention、Triton kernels等),加速训练吞吐。
    • 灵活:兼容多种大语言模型(如InternLM、Mixtral-8x7B、Llama 2等),以及多模态图文模型(如LLaVA)。支持各种微调算法(如QLoRA、LoRA、全量参数微调等)。
    • 全能:支持增量预训练、指令微调和Agent微调,且预定义了多个开源对话模版,支持与开源或训练所得模型进行对话。

    传送门XTuner GitHub


部署

  • LMDeploy:LMDeploy是由MMDeploy和MMRazor团队联合开发的全套轻量化、大规模模型部署解决方案,具备以下特点:

    • 高效推理:支持持久化批处理、动态拆分与融合等特性,推理性能是vLLM的1.8倍。
    • 可靠量化:支持权重量化和K/V量化,4bit模型的推理效率是FP16的2.4倍。
    • 便捷服务:支持多模型在多机、多卡上的推理服务,并且支持有状态推理,缓存对话历史,显著提升长文本多轮对话的效率。
    • 卓越兼容性:支持KV缓存量化、AWQ和自动前缀缓存同时使用。

    传送门LMDeploy GitHub


评测

  • OpenCompass:这是一个开源、高效且全面的大模型评测体系,提供了一个开放平台,支持大规模模型的评估。用户可以利用这个平台进行模型的全方位测评,确保其性能和可靠性。

    传送门OpenCompass 网站
    GitHubOpenCompass GitHub


应用

  • MindSearch:MindSearch是一个开源的思索式搜索应用,致力于提供精准高效的搜索体验。

    传送门MindSearch GitHub

  • Lagent:Lagent是一个轻量级的开源智能体框架,旨在帮助用户高效构建基于大语言模型的智能体,同时提供多种增强工具以提升模型能力。

    传送门Lagent GitHub
    中文教程Lagent 中文教程

  • AgentLego:AgentLego是一个多模态工具包,提供了丰富的API接口,用户可以像搭建乐高积木一样,快速构建自定义的智能体。

    传送门AgentLego GitHub

  • MinderU:MinderU是一个高效的文档解析工具,旨在帮助用户快速解析和处理各种类型的文档。

    传送门MinderU GitHub

  • HuixiangDou:HuixiangDou是基于专业知识库的群聊助手,能够提升团队沟通效率。

    传送门HuixiangDou GitHub


### 书生大模型 L1G1000 技术文档概述 书生大模型全链路开源体系提供了详尽的技术文档,涵盖了从基础架构搭建到具体应用场景实现的各个方面[^3]。该体系由上海人工智能实验室开发,旨在为用户提供全面的支持。 #### 主要组成部分 - **数据处理工具**:提供了一系列高效的数据预处理方法和技术,确保输入数据的质量和一致性。 - **技术栈**:包括但不限于自然语言处理(NLP),计算机视觉(CV)等领域所需的各种算法库和支持框架[^2]。 - **应用实例** - **MINSEARCH**: 基于AI驱动的搜索引擎解决方案,利用先进的检索技术和机器学习优化搜索体验。 - **RAG (Retrieval-Augmented Generation)**: 将传统的信息检索系统与现代的语言生成能力相结合,实现了更精准的内容理解和表达转换服务。 - **LabelLLM Project**: 提供了一套完整的自动化标签生成流程,极大地方便了NLP任务中的数据标注工作。 - **OpenCompass Platform**: 构建了一个公开透明的大规模评测环境,有助于推动整个行业的健康发展并提高模型评估的标准性。 ```python # 示例代码片段展示如何加载预训练好的BookSheng模型进行推理预测 from transformers import AutoModelForCausalLM, AutoTokenizer tokenizer = AutoTokenizer.from_pretrained("shanghaiai/booksheng-l1g1000") model = AutoModelForCausalLM.from_pretrained("shanghaiai/booksheng-l1g1000") input_text = "你好世界" inputs = tokenizer(input_text, return_tensors="pt") outputs = model.generate(**inputs) print(tokenizer.decode(outputs[0], skip_special_tokens=True)) ``` 此段Python脚本展示了通过Hugging Face Transformers库快速上手使用书生大模型的方法之一。只需几行简单的命令即可完成对给定文本序列的编码解码操作,并获得相应的输出结果。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值