InternLM2论文笔记

凌漪_

已于 2024-05-12 18:06:26 修改

阅读量273

点赞数 2

分类专栏：书生-浦语大模型训练营2 文章标签：学习笔记

于 2024-03-31 19:53:21 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/a61022706/article/details/137207579

版权

书生-浦语大模型训练营2 专栏收录该内容

11 篇文章 0 订阅

订阅专栏

本文分析了InternLM2论文中关于大模型的两种微调方式（无监督增量和有监督全量），强调了扩展上下文长度的重要性，以及LLaMA模型的Transformer更新，包括使用RMSNorm、SwiGLU和GQA结构。同时讨论了数据预处理和模型结构创新，以提升训练效率和性能。

摘要由CSDN通过智能技术生成

这里是阅读InternLM2论文的笔记

微调方式
在大模型的下游应用中，可以有两种微调方式

增量续训
即无监督的方式，让模型学习一些新知识，比如某些垂直领域的新知识
使用的数据有：书籍，文章，代码等
有监督微调
为了让模型学会理解指令进行对话，或者注入少量的领域知识
使用的数据为高质量的对话和问答的数据
全量参数微调
部分参数微调（lora等）

在这里插入图片描述

扩展上下文长度
必要性：
1. 检索增强生成（RAG）需要检索的时候返回很长的上下文
2. Agent应用时，用户的历史对话数据很长
在这里插入图片描述

LLaMA的transformer的更新

将 LayerNorm （Ba et al.， 2016）替换为 RMSNorm （Zhang & Sennrich， 2019）
将激活函数设置为 SwiGLU （Shazeer， 2020）

数据流水线：
数据格式化：爬的网页提取正文和检测语言
规则处理：随机爬的网页很多脏数据，针对标点符号的异常断行、异常字符出现频率、标点符号分布情况等设计了一系列启发式过滤规则
重复数据过滤：使用minhash (5-gram) ,0.7阈值
安全过滤：采用“域名屏蔽”、“词屏蔽”、“色情分类”和“毒性分类”相结合的综合安全策略对数据进行过滤
毒性分类模型过滤（基于kaggle相关数据集训练的bert）
质量过滤：互联网来源的数据包含大量低质量的内容，人工按照一些维度标注，然后训练模型二次过滤
在这里插入图片描述

技术报告

InternLM2的模型结构创新
基于Transformer架构，并加入以下4个创新点以优化训练效率和模型性能：

层归一化部分代替传统的LayerNorm，采用RMSNorm或其他归一化方法来提高训练效率。

激活函数选择了SwiGLU之类的激活函数，提升了模型的性能。

对模型中的权重矩阵如Wk, Wq, Wv进行了调整，以支持不同的张量并行转换，并提高训练速度。
为了支持长上下文，采用了Grouped-Query Attention (GQA)结构，以便在处理非常长的上下文时保持高速和低GPU显存消耗。

在这里插入图片描述

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
InternLM2论文笔记

规则处理：随机爬的网页很多脏数据，针对标点符号的异常断行、异常字符出现频率、标点符号分布情况等设计了一系列启发式过滤规则。安全过滤：采用“域名屏蔽”、“词屏蔽”、“色情分类”和“毒性分类”相结合的综合安全策略对数据进行过滤。对模型中的权重矩阵如Wk, Wq, Wv进行了调整，以支持不同的张量并行转换，并提高训练速度。质量过滤：互联网来源的数据包含大量低质量的内容，人工按照一些维度标注，然后训练模型二次过滤。激活函数选择了SwiGLU之类的激活函数，提升了模型的性能。数据格式化：爬的网页提取正文和检测语言。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。