一、书生大模型开源开放体系简介
从2023年7月6日InternLM - 7B开源免费商用开始,书生大模型开源开放体系按照数据采集标注、模型预训练、微调、部署到多个应用的全流程的开源。其核心目标是通过提供一套完整的工具和框架,使开发者能够快速、高效地构建和应用大模型。该体系旨在降低大模型研发的门槛,推动人工智能技术的普及和应用。
二、书生体系产品矩阵
书生大模型开源开放体系由多个产品组成,包括以下几个主要方向:
数据处理:
书生·万卷:这是一个高质量的大模型多模态预训练语料库,包含文本、图文和视频数据集,数据总量超过2TB,具备多元融合、精细处理、价值对齐和易用高效等特征。
预训练框架:
InternEvo:这是一个用于大规模模型预训练的轻量级框架,集成了主流的Transformer架构优化技术,支持大规模分布式训练,并具备适应领域特定任务的能力。
微调工具:
Xtuner:这是一个高效微调工具,专为适应不同下游任务的需求而设计,支持多种微调策略,如参数高效微调(PEFT)和领域适应微调,具备自动超参数搜索功能。
评测体系:
OpenCompass:这是一个开放且全面的评测平台,覆盖自然语言理解、生成、对话和推理等多种任务场景,提供标准化的评测指标和基准数据集,支持定制化评测流程。
部署:
LMDeploy:这是一个用于大规模模型的高效推理部署框架,支持多平台部署,如云端、边缘端及本地设备,并提供灵活的模型压缩与量化工具,显著降低推理时的计算资源消耗。
应用模块:
MindSearch(思索式搜索引擎):这是一个智能搜索引擎,采用思索式搜索技术,通过理解用户意图和上下文语境,为用户提供精准的多模态搜索结果。
Lagent(支持代码解释器的智能体开发框架):这是一个支持多种智能体构建与调试的框架,提供模块化设计的架构,帮助开发者快速创建面向特定任务的智能体。
MinerU(高效文档解析工具-数据提取):这是一个专注于从复杂文档中提取结构化信息的工具,支持多种文档格式,并结合自然语言处理与信息抽取技术。
HuixiangDou(群聊助手):这是一个基于专业知识库的群聊助手,能够在群体对话中提供智能化的知识支持与协作建议[RAG技术,利用外部知识库信息和知识图谱,非参数记忆]。
LabelLLM:LLM对话标注工具。
LabelU:支持图片,视频,音频轻量级开源标注工具。
三、发展展望
书生IntelnLM2.5 - 7B已经支持100万Token上下文(背景知识),在如此上下文范围支持下,在大海捞针试验中有很不错的效果。我们认为巨量上下文是未来替代RAG部分场景的一个方式,目前RAG需要经过内容拆分、内容向量化、问题向量化、问题和内容拿到匹配分块、再去问语言模型获取答案,对一些长文本分析,跨文本分析效果和效率不太友好
综上所述,书生大模型开源开放体系通过促进技术共享与创新、降低技术门槛、促进学术研究与产业合作。该体系不仅为开发者提供了强大的技术支持和工具,还通过其开放和共享的理念,推动了人工智能技术的全面发展。