【书生·浦语实战营】第一课笔记：letenLM2 论文以及书生·浦语开源体系介绍

最新推荐文章于 2024-09-11 14:42:29 发布

chi93

最新推荐文章于 2024-09-11 14:42:29 发布

阅读量862

点赞数 15

分类专栏： llm 文章标签：笔记

本文链接：https://blog.csdn.net/chi93/article/details/139545098

版权

llm 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

文章目录

技术报告

报告地址：https://arxiv.org/pdf/2403.17297
显示了模型的架构，数据处理的流程，模型是如何训练的。这里把数据处理和模型训练的一部分拿出来记录一下。

数据处理流程：

数据处理流程
先格式化文档：从各种格式的文件中提取文本，识别语言类型。
基于规则处理文本：识别解析错误、格式问题和非自然语言文本等异常，过滤异常文本。
然后文本去重
然后进行数据的安全性审查：
对审查过后的文本进行分类，最终得到高质量文本。

迭代精细的代码质量标注

迭代代码质量标注
借助模型辅助进行数据标注，先训练一个简单的打分器，让打分模型对训练的数据进行分类评价。把打分模型的分类评价的结果给到人工的标注员去确认，这个打分合不合适。如果合适就把这个数据放到训练集里面，将来可以用这个数据再训练打分模型，如果打分模型评判的结果的不合适，那就让把数据被更新的打分模型再进行处理。

长文本数据来源
在进行过滤之前，有大量都是通过爬虫爬取的，在进行数据过滤之后，爬虫爬取的这些数据大幅减少。专利数据，书籍数据和论文数据的比例增加。

请添加图片描述
长文本代码数据的处理。上面是对仓库的处理，下面是对文件的处理。
对仓库的处理就是先爬数据，然后看仓库的语言类型，进行处理。得到仓库以及文件的描述。把仓库和描述对应存起来。
对文件的处理就是从已经处理过的仓库中，读取文件，一直拼接文件，直到文件超过模型的上下文长度。然后把拼接好的文件存储起来。
这里不确定，拼接的文件是不是都是一个仓库的，要以什么样的顺序拼接，如果一个仓库中文件长度超过32k了要怎么处理。删除了最后一个文件的内容，不清楚后面还会用么？
这里提到使用代码数据能够提高模型的上下文长度，而且能够增强模型的推理能力。

模型训练

sft的数据拼盘

sft数据占比
sft主要还是为了让模型能够和人进行沟通交流，所以对话聊天的占比是比较多的。另外就是一些具体的小任务，推理能力，工具使用能力等。看侧重选的不同配比

奖励模型训练

基于人类反馈的强化学习
这里的区别是，llama2 有很多个奖励模型，但是internLM 只有一个奖励模型，可以通过不同的提示，得到对不同方面的打分。也就是说internLM 更大一点，通用能力更强一些，会方便一些。但是在最后实践上哪个更好，不好说。我现在的思想还停留在专业小模型阶段。

ppo过程

条件ppo训练
这里的训练过程实际上就是
这里提到4个模型：我不确定自己理解是不是正确的，先记录一个理解的起点吧。

奖励模型；这里是之前训练得到的奖励模型，能够对问答对进行评价。评价会用来计算损失更新模型参数。
参考模型：这里是一个基准模型，希望更新的actor model尽量不要和基准模型有太多没有必要的差异。当差异越大，对应的kl散度就越大，损失就越大。
动作模型：从参考模型初始化，是要用来更新的大模型。
批判模型：从奖励模型初始化，用来评估动作模型的效果。

开源体系

开源体系介绍在b站，

请添加图片描述
开放了模型训练的数据，
在训练上：开放了预训练工具和微调工具。
在应用上，开放了一个部署工具，lmdeploy，以及一个智能体应用工具lagent。
还开放了模型能力测评体系。
开发训练数据
第二版的数据是400g, 第一版的数据是2t.
但是不确定的是这两个版本的数据能不能同时使用，还是说第二版的数据是对第一版数据的深入处理。