书生·浦语大模型全链路开源体系

最新推荐文章于 2024-07-18 12:25:14 发布

狗狗熊学AI

最新推荐文章于 2024-07-18 12:25:14 发布

阅读量1.5k

点赞数 45

分类专栏：书生·浦语大模型训练营笔记文章标签：人工智能

本文链接：https://blog.csdn.net/m0_55764641/article/details/135373657

版权

7 篇文章 0 订阅

订阅专栏

internLM介绍

书生·浦语大模型系列

轻量级：InternLM-7B 社区低成本可用最佳模型规模
- 70亿模型参数，小巧轻便，便于部署
- 10000亿训练token数据，信息全面，能力多维
- 具备长语境能力，支持8k语境窗口长度
- 具备通用工具调用能力，支持多种工具调用模板
中量级：InternLM-20B 商业场景可开发定制高精度较小模型规模
- 200亿参数量，在模型能力与推理代价间取得平衡
- 采用深而窄的结构，降低推理计算量但提高了推理能力
- 4k训练语境长度，推理时可外推至16k
全面领先相近量级的开源模型（包括Llama-33B、Llama2-13B以及国内主流的7B, 13B开源模型)
以不足三分之一的参数量，达到Llama2-70B水平学科
重量级：InternLM-123B 通用大语言模型能力全面覆盖干亿模型规模
- 1230亿模型参数，强大的性能
- 具备极强的推理能力、全面的知识覆盖面、超强理解能力与对话能力
- 准确的API调用能力，可实现各类Agent

从模型到应用示例图

书生·浦语大模型全链路开源体系概览

书生·万卷 1.0 (截止2023年8月14日，总数据量为2TB)

其特点如下：

多模态融合：万卷包含文本、图像和视频等多模态数据，涵盖科技、文学、媒体、教育和法律等
多个领域。该数据集对模型的知识内容、逻辑推理和泛化能力的提升有显著效果。
精细化处理：万卷经过语言筛选、文本提取、格式标准化、数据过滤和清洗(基于规则和模型)、多尺度去重和数据质量评估等精细数据处理环节,能够很好地适应后续模型训练的要求。
价值观对齐：在万卷的构建过程中，研究人员注重将数据内容与主流中国价值观进行对齐，并通
过算法和人工评估的结合提高语料库的纯净度。