【书生·浦语实战营】第一课笔记:letenLM2 论文以及书生·浦语开源体系介绍

技术报告

报告地址:https://arxiv.org/pdf/2403.17297
显示了模型的架构,数据处理的流程,模型是如何训练的。这里把数据处理和模型训练的一部分拿出来记录一下。

数据处理流程:

数据处理流程
先格式化文档:从各种格式的文件中提取文本,识别语言类型。
基于规则处理文本:识别解析错误、格式问题和非自然语言文本等异常,过滤异常文本。
然后文本去重
然后进行数据的安全性审查:
对审查过后的文本进行分类,最终得到高质量文本。

迭代精细的代码质量标注

迭代代码质量标注
借助模型辅助进行数据标注,先训练一个简单的打分器,让打分模型对训练的数据进行分类评价。把打分模型的分类评价的结果给到人工的标注员去确认,这个打分合不合适。如果合适就把这个数据放到训练集里面,将来可以用这个数据再训练打分模型,如果打分模型评判的结果的不合适,那就让把数据被更新的打分模型再进行处理。

长文本数据来源
在进行过滤之前,有大量都是通过爬虫爬取的,在进行数据过滤之后,爬虫爬取的这些数据大幅减少。专利数据,书籍数据和论文数据的比例增加。

请添加图片描述
长文本代码数据的处理。上面是对仓库的处理,下面是对文件的处理。
对仓库的处理就是先爬数据,然后看仓库的语言类型,进行处理。得到仓库以及文件的描述。把仓库和描述对应存起来。
对文件的处理就是从已经处理过的仓库中,读取文件,一直拼接文件,直到文件超过模型的上下文长度。然后把拼接好的文件存储起来。
这里不确定,拼接的文件是不是都是一个仓库的,要以什么样的顺序拼接,如果一个仓库中文件长度超过32k了要怎么处理。删除了最后一个文件的内容,不清楚后面还会用么?
这里提到使用代码数据能够提高模型的上下文长度,而且能够增强模型的推理能力。

模型训练

sft的数据拼盘

sft数据占比
sft主要还是为了让模型能够和人进行沟通交流,所以对话聊天的占比是比较多的。另外就是一些具体的小任务,推理能力,工具使用能力等。看侧重选的不同配比

奖励模型训练

基于人类反馈的强化学习
这里的区别是,llama2 有很多个奖励模型,但是internLM 只有一个奖励模型,可以通过不同的提示,得到对不同方面的打分。也就是说internLM 更大一点,通用能力更强一些,会方便一些。但是在最后实践上哪个更好,不好说。我现在的思想还停留在专业小模型阶段。

ppo过程

条件ppo训练
这里的训练过程实际上就是
这里提到4个模型:我不确定自己理解是不是正确的,先记录一个理解的起点吧。

奖励模型; 这里是之前训练得到的奖励模型,能够对问答对进行评价。评价会用来计算损失更新模型参数。
参考模型:这里是一个基准模型,希望更新的actor model尽量不要和基准模型有太多没有必要的差异。当差异越大,对应的kl散度就越大,损失就越大。
动作模型:从参考模型初始化,是要用来更新的大模型。
批判模型:从奖励模型初始化,用来评估动作模型的效果。

开源体系

开源体系介绍在b站,

请添加图片描述
开放了模型训练的数据,
在训练上:开放了预训练工具和微调工具。
在应用上,开放了一个部署工具,lmdeploy,以及一个智能体应用工具lagent。
还开放了模型能力测评体系。
开发训练数据
第二版的数据是400g, 第一版的数据是2t.
但是不确定的是这两个版本的数据能不能同时使用,还是说第二版的数据是对第一版数据的深入处理。

请添加图片描述
不能测能力就办法选,也看不到差距。所以测评是关键一环。工具使用很方便

请添加图片描述
有社区建设,后面去看一看有没有新鲜指标以及有意思的测评集。
请添加图片描述
之前用过部署,的确是很方便。解析程序自带的,只需要传递参数就可以了。

请添加图片描述
两个都用过,在使用侧是没有明显的区别感觉的。相信能够放出来的结果,应该是真的。
现在很多工具支持vllm,但不原生支持lmdeploy,还是要把推广的工作做好。

请添加图片描述
智能体工具lagent没有用过,当感觉应该和常用的差不多。等用完在来写感受。
请添加图片描述
这里智能体工具箱主要是为了支持智能体能力扩展的。

  • 15
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值