第一关:书生大模型全链路开源体系
高质量合成数据
LLM 产品线 - 按模型大小
据说 20B 以上的有涌现,7B 及一下还是有一点基于训练数据的感觉
全流程产品线
全链条的环节包括:数据 - 预训练 - 微调 - 部署 - 评测 - 应用
ailab 开源了每个环节的库和框架
环节:数据
目前提供 30 余种数据集。主要数据类型有图像,视频,tokens 语料,3D 模型,音频。
对于数据提取和数据标注环节,ailab 提供了 Miner U 数据提取工具,提取 PDF 中的语料信息;也提供了 Label LLM/Label U 数据标注工具
环节:预训练
InternEvo 预训练框架支持分布式训练(跨 GPU),可以让更大的模型跨 GPU 跑起来。
环节:微调
XTuner 支持目前市面上的主流格式。该框架可以将市面上的格式转化成统一的内部格式,然后进行微调。Flash Attention 是自动开启的。主要支持 QLoRA 算法和 LoRA 算法。
环节:评测
OpenCompass 是评测框架,得到了 Meta 的认证,并参与了国标制定。
环节:部署
环节:智能体
模型在一些方面具有局限性,如持续学习最新的信息、提供可靠的回复、严谨数学计算、工具使用和交互。因此,可以把模型和工具结合
学术界主流的框架有三种,ReAct, ReWoo, AutoGPT
应用:构建企业级知识库
ailab 做了一个叫 huixiangdou 的工具。主要支持 RAG 检索增强生成和 KG 知识图谱两种模式