书生大模型全链路开源开放体系

最新推荐文章于 2025-04-29 18:34:44 发布

内卷的晨曦

最新推荐文章于 2025-04-29 18:34:44 发布

阅读量1.6k

点赞数 48

文章标签：开源

本文链接：https://blog.csdn.net/m0_62414527/article/details/143773685

版权

全链条开源，与社区生态无缝连接

数据

书生·万卷

首个精细处理的开源多模态语料库

Miner U

一站式开源高质量数据提取工具，支持多格式（PDF/网页/电子书），智能萃取，生成高质量预训练/微调语料。

复杂版面/公式精准识别
性能超过商业软件

Label LLM

专业致力于LLM对话标注，通过灵活多变的工具配置与多种数据模态的广泛兼容，为大模型量身打造高质量的标注数据。

支持指令采集、偏好收集、对话评估…
多人协作、任务管理、源码开放可修改

Label U

一款轻量级开源标注工具，自由组合多样工具，无缝兼容多格式数据，同时支持载入预标注，加载数据标注效率。

支持图片、视频、音频多种数据标注
小巧灵活，AI标注导入二次人工精修

预训练

InternEvo

性能超过国际主流训练框架DeepSpeed

模型训练

InternLM、LLAMA、LLAVA、MoE

分布式训练系统

分布式训练数据并行、流水并行、张量并行、序列并行、权重并行、自动并行
仿真器求最优解并行配置
通信优化集合/p2p通信
显存优化
计算加速、高性能算子库、算子融合、混合精度训练

训练支撑系统

异常恢复
可视化
跨集群任务调度
日志系统
监控系统
告警系统

基础设施

跨硬件平台：CPU/GPU/NPU
存储：分布式文件存储/OSS
网络：训练/数据网络

大模型训练

支持千卡以上模型训练，千卡加速比可达92%

极致性能优化

4D并行+Ring Attention最高支持1M长文训练

软硬件生态

兼容HuggingFace生态
支持NV与910B筹集群

全场景训练

预训练+微调+RLHF
全场景覆盖

微调

XTuner

适配多种生态

多种微调算法
多种微调&偏好对齐算法，覆盖各类应用场景
适配多种开源生态
支持加载HuggingFace、ModelScope模型或数据集
自动优化加速
开发者无需关注复杂的显存优化与计算加速细节
支持千亿参数+百万上下文训练

适配多种硬件

训练方案覆盖NVIDIA 20系以上所有显卡
最低只需 8GB 显存即可微调 7B模型

部署

LMDeploy

整体架构
在这里插入图片描述

评测

OpenComass评测体系

获得 Meta 官方推荐唯一国产大模型评测体系
开源社区最完善的评测体系之一超过100+评测集50万＋题目

三位一体

在这里插入图片描述
工具-基准-榜单

应用

智能体 Lagent

轻量级智能体框架

支持多种类型的智能体能力
灵活支持多种大语言模型
简单易扩展，支持丰富的工具

HuixiangDou 企业级知识库构建工具

介绍：HuixiangDou是群聊场景LLM知识助手，为即时通讯群聊场景设计。
场景特点：无关问题不吭声、明确回答的直接回复、不违背核心价值观
特性：

开源：BSD-3-Clasue免费商用
实战派：应用RAG和KG，1500+知识库，500+用户群，业务数据实测精度
领域知识：7中文档格式，更新立即生效
安全：支持私有化部署，数据不上传
简单便宜：最低仅2G显存，支持现有客户群
扩展性强：2类IM软件，9个LLM接口

社区生态

Hugging Face
LLM
LLaMA
TensorRT-LLM
LM Studio
LLaMA-Factory
LIamaIndex
LangChain
ollama
MLX
llamafile
Swift