初探书生·浦语大模型

最新推荐文章于 2024-09-14 16:23:11 发布

Yedu_Su

最新推荐文章于 2024-09-14 16:23:11 发布

阅读量725

点赞数 17

文章标签： llama 人工智能

本文链接：https://blog.csdn.net/Yedu_Su/article/details/137341305

版权

本文介绍了书生·浦语大模型的发展趋势，开源历程，以及InternLM2的详细技术特点，包括模型结构优化、预训练方法、数据处理和评价体系。课程内容涵盖了模型选型、全链条工具体系开源及opencompass评测体系的构建，展示了大模型在通用人工智能中的重要角色。

摘要由CSDN通过智能技术生成

本文是书生·浦语大模型实战训练营第二期第一节课的学习笔记。

第一节课中，上海人工智能实验室的青年科学家陈恺老师从通用大模型成为人工智能发展趋势开始，逐步为我们介绍了书生浦语大模型开源历程，书生浦语全链条开源开放体系。书生浦语大模型2.0提供不同尺寸和类型的模型，支持多语言和多模态任务，第一节的课程内容除了视频课程外，还包括一份InternLM 2的技术报告。

一、大模型成为发展通用人工智能的重要途径

近些年大模型成为发展通用人工智能的途径，并且离用户越来越近，广泛应用于生产实践中。企业和个人用户对于大模型的需求日益旺盛，而开源模型是对大模型针对性改进的重要途径。

二、书生·浦语大模型

　书生·浦语(InternLM)大语言模型由上海人工智能实验室联合多家机构共同推出。书生·浦语模型在各种能力评测中的表现，包括语言知识、推理、数学、代码等方面，同时还介绍了模型的应用和数据分析功能。20B模型在推理数学代码等方面的性能优于GP3.5和germini pro模型在综合性能方面达到同量级的开源模型领先水平，模型内生的计算能力和数据分析功能能够处理复杂的任务和数据分析

三、开源历程

2024年1月17日，InternLM 2开源。我们在第二节课中将要实际部署 InternLM 2-Chat-1.8B。

四、全链条工具体系开源

从模型选型到应用的整个流程，以及各个环节需要做的事情，并介绍了书生葡语的全链条工具体系和开源数据集。

模型选型是第一步，需要考虑模型的复杂度和算力

书生浦语的全链条工具体系开源，包括数据、预训练、微调、部署、评测、应用等环节

书生万卷cc数据集开源，包括2013年至2023年的互联网公开内容，并进行精细化的清洗和处理

五、open compass模型评测体系

open compass 2.0思南大模型评测体系，包括评测框架的开发和开源、评测基准社区的建立以及对大模型能力提升的分析。，可以把更多精力投入到数据准备和优化上，已经·发布open compass 2.0思南大模型评测体系，open compass已经适配超过100个评测集，是国内最完善的评测体系之一

六、技术报告学习笔记

这份技术报告介绍了InternLM2，InternLM2是由上海人工智能实验室、SenseTime集团、香港中文大学以及复旦大学共同开发的开源大型语言模型（LLM）。

InternLM2在六个维度和30个基准测试中的全面评估中超越了其前身，并且在长文本建模和开放式主观评估方面表现出色。报告详细介绍了InternLM2的预训练过程，包括多样化数据类型的准备，如文本、代码和长文本数据。InternLM2通过创新的预训练和优化技术，有效地捕捉长期依赖关系，并在预训练和微调阶段从4k标记开始，逐步提高到32k标记，表现出在200k“针堆”测试中的卓越性能。

报告介绍了InternLM2的对齐策略，包括监督式微调（SFT）和新颖的条件在线强化学习（COOL RLHF）策略，该策略解决了冲突的人类偏好和奖励黑客问题。通过发布不同训练阶段和模型大小的InternLM2模型，为社区提供了模型演变的洞察。

报告的内容包括：

引言：介绍了大型语言模型（LLMs）的流行和对人工通用智能（AGI）的讨论。

基础设施：介绍了用于模型训练的InternEvo框架，包括模型结构和训练过程。

（1）模型结构

InternLM2基于Transformer结构，对其进行优化来提升训练效率和模型性能：

遵循LLAMA的结构设计原则，将归一化层LayerNorm用RMSNorm进行替换并将激活函数设置为SwiGLU，来提升训练效率和性能；

为了更好的支持不同向量并行的转换，重新配置了q、k、v的权重矩阵；

预训练：详细介绍了预训练数据、设置和阶段。

文本数据：

文本数据
数据来源于网页、论文、专利和书籍，首先将所有数据标准化为指定格式，按照类型和语言对其分类，存储为JSON格式，然后对所有数据进行基于规则的过滤、重复数据删除、安全过滤和质量过滤，来得到高质量的预训练数据集。

代码数据：

数据来源包括从 GitHub、公共数据集和与编码和编程相关的在线资源，如Q&A论坛、教程站点和API文档直接爬取。将所有代码数据转换为统一的markdown格式，并处理格式损坏问题；使用有效的分词器对重复数据进行删除；采用混合的多阶段过滤，包括使用基于规则的评分器和基于模型的评分器对代码质量进行评分，然后根据评分过滤数据,为了得到可靠的注释，引入了下图的迭代注释过程；最后重新组合来自同一存储库的代码文件并执行依赖排序来建立连接这些文件的序列。