IN2 用于微调 LLM 长上下文窗口的数据设计

lichunericli

于 2024-05-04 01:54:53 发布

阅读量818

点赞数 22

文章标签：人工智能自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lichunericli/article/details/138429429

版权

原文地址：data-design-for-fine-tuning-llm-long-context-windows

微调LLMs以充分利用可用的上下文窗口。

2024 年 5 月 4 日

介绍

考虑到最近的研究，我发现有趣的是，某些微调和梯度技术的主要目的并不是将特定领域的数据注入语言模型。

相反，他们的主要目标是改变模型的行为，并通过微调数据的设计和结构来指导其执行特定任务。

这些任务包含推理、自我纠正和更好地处理大上下文等功能。 IN2 是这种方法的另一个例子。

问题

目前，许多大型语言模型（LLM）可以接收长文本作为输入。我们称之为上下文窗口或大上下文窗口。

然而，LLMs仍然难以在长期背景下充分利用信息，这被称为“lost-in-the-middle”。这是LLMs强调提交数据集开头和结尾的信息的现象。当对数据主体提出问题时，忽略中间部分。

引起"lost-in-the-middle"的根本原因源于隐藏在一般训练数据中的无意识偏差。

解决方案

最近的一项研究认为，长上下文训练期间缺乏明确的监督是造成这种现象的原因。

显性监督应明确强调这样一个事实：长上下文背景下的任何位置都可以掌握关键信息。

进入信息强化 (IN2) 培训

IN2 是一个纯粹的数据驱动解决方案，旨在克服中间迷失的问题。

IN2 训练利用合成的长上下文问答数据集，其中答案需要两个元素：

在合成的长上下文中对短片段进行细粒度的信息感知。
对两个或多个短片段的信息进行整合和推理。

在自回归预训练中，预测下一个标记通常更多地受到附近标记的影响，而不是远处标记的影响。

类似地，在监督微调中，强烈影响响应生成的系统消息通常放置在上下文的开头。这可能会产生偏差，表明重要信息总是出现在上下文的开头或结尾。

信息密集型（IN2）的重点是LLMs的培训，以明确地教导模型关键信息可以在整个上下文中集中呈现，而不仅仅是在开头和结尾。

IN2 是一个纯粹的数据驱动解决方案。

IN2 的方法

长上下文从 4K 到 32K 令牌，由许多短片段编译而成，每个短片段大约有 128 个令牌。

问答（QA）对询问位于一个或多个片段中的信息，这些片段在长上下文中随机定位。

生成两种类型的问题：

人们需要对单个短片段有详细的了解，
而另一个则需要对来自多个细分市场的信息进行整合和推理。

这些 QA 对是通过使用特定指南和原始片段指导 GPT-4-Turbo（OpenAI，2023b）生成的。

考虑上图，创建训练数据的流程：

上：增强细粒度信息意识

下：信息整合与推理

细粒度的信息感知

上下文的最小信息单元被认为是 128 个令牌段。

以下是该研究中的三个示例，说明了细粒度信息感知数据是如何设计的。

请注意该部分，即问题以及上下文中的适当答案。

下面是一个更长的例子，根据片段和答案全部在上下文中。

信息整合与推理

除了利用每个单独的片段之外，该研究还考虑了如何为两个或多个片段中包含的信息生成问答对。

下面是一个较短的答案示例。

还有另一种变化...

数据生成和训练提示

下面使用的模板...

最后

这项研究引入了 IN2 训练来解决中间迷失的挑战，并展示了探测任务和现实世界长上下文任务的显着增强，而不会牺牲短上下文场景中的性能。

博客等级

码龄9年

406
原创

1万+
点赞

9803
收藏

6903
粉丝

关注

私信

热门文章

分类专栏

传统文化-易经 11篇
数据库 10篇
经济学 2篇
沟通 1篇
人工智能 8篇
Java 2篇
缓存 4篇
架构 1篇
搜索引擎 4篇
消息队列 2篇
微服务 1篇
注意事项 1篇
LLM 应用实现总结 8篇
GIT 1篇
IM即时通讯 1篇

最新评论

记一次港交所面试
liulicsu: 是纯英文面试吗
拆解 Transformer 的训练过程
tjuwzan: 最近在看Transformer的知识，的确有些地方有点没搞明白，想先请教几个问题： 1. 本篇主要讲Transformer的训练环境，图上模型最右侧，也就是Decoder的下面，是Output Embedding, 最上面是Output，他们之间有关系吗？ 2. 训练，如果是传统的机器学习或者深度学习，如果是Supervised Learning的话，应该有输入，ground truth，以及loss function，但Transformer很少有人提这个，那么Transformer的学习过程是什么？Loss Function是什么？ 3. 还是训练问题，普通深度学习模型学习的大概是W and B，Transformer的学习是Wq, Wk, Wv吗？是如何学习的呢？尤其在第7节里描述：例如，对于计算 Query 矩阵，权重矩阵的行数必须与转置矩阵的列数相同，而权重矩阵的列数可以任意；例如，我们假设权重矩阵有 4 列。权重矩阵中的值介于 0 和 1 之间，随机初始化，当 Transformer 开始学习语料的含义时，这些值会更新。文中提到的三句话，是不是语料？咱们的例子中是不是就是用这三句话作为训练例子呢？ 4. 依然是文章中描述的，把when you play the game of thrones, you win or you die. 这句话有两个部分，前面部分作为输入，后面部分作为输出，那么第一句，I drink and I know things，这里面只有一句，怎么分输入和输出呢？ 5. 掩码的作用没太理解，可否解释一下呢？很多都说是为了让模型只参考前面，而不看后面，这句话还是没有真正理解。程序员出身，一直是按照程序员思维想弄清楚每个细节，但是NLP基础有点薄弱，理解一些思想有点难度。多谢解答
Java内存模型（JMM）与Volatile关键字底层原理
Yunwushenyanying: 讲的太全面了！非常有帮助
记录些MySQL题集（4）
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天值得看】榜单，全部的排名请看 https://bbs.csdn.net/topics/619168846。
DSPy入门：告别指令提示，拥抱编程之旅！
LK12mufc: 可以理解成，langchain和llamaindex需要自己写prompt。DSPY自动写prompt？？如果是这样，最终到LLM那里还是一样的呀

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。