大模型论文：利用全文本信息的大型语言模型

猿类崛起@

已于 2024-07-09 14:09:17 修改

阅读量37

点赞数 8

文章标签：语言模型人工智能自然语言处理 mllib 知识图谱生成对抗网络机器翻译

于 2024-05-03 12:45:00 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2401_84495872/article/details/138340889

版权

本研究提出了信息密集型训练方法(IN2)，通过生成长文本问答数据集，强化大型语言模型在处理长篇幅输入时的信息利用能力，有效解决了中段信息丢失问题。

虽然许多当代大型语言模型（LLM）可以处理冗长的输入，但它们仍然难以在长上下文中充分利用信息，这被称为中间迷失挑战。我们假设它源于长期语境培训期间的明确监督不足，这未能强调长期背景下的任何职位都可以掌握关键信息。基于这种直觉，我们的研究提出了信息密集型（IN2）培训，这是一种纯粹的数据驱动解决方案，可以克服中间迷失。具体来说，IN2 训练利用合成的长上下文问答数据集，其中答案需要（1）在合成的长上下文（4K-32K 令牌）中对短段（~128 个令牌）的细粒度信息感知，以及（2）来自两个或多个短段的信息的整合和推理。通过在Mistral-7B上应用这种信息密集型训练，我们提出了FILM-7B（FILl-in-the-Middle）。为了全面评估 FILM-7B 利用长上下文的能力，我们设计了三个探测任务，包括各种上下文样式（文档、代码和结构化数据上下文）和信息检索模式（前向、后向和双向检索）。探测结果表明，FILM-7B可以稳健地从其32K上下文窗口中的不同位置检索信息。除了这些探测任务之外，FILM-7B还显著提高了现实世界的长上下文任务的性能（例如，NarrativeQA的F1得分为23.5->26.9），同时在短上下文任务上保持了相当的性能（例如，MMLU的准确率为59.3->59.2）。

在这里插入图片描述

想要论文PDF可以找我拿

关注

8
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
大模型论文：利用全文本信息的大型语言模型

本研究提出了信息密集型训练方法(IN2)，通过生成长文本问答数据集，强化大型语言模型在处理长篇幅输入时的信息利用能力，有效解决了中段信息丢失问题。虽然许多当代大型语言模型（LLM）可以处理冗长的输入，但它们仍然难以在长上下文中充分利用信息，这被称为中间迷失挑战。我们假设它源于长期语境培训期间的明确监督不足，这未能强调长期背景下的任何职位都可以掌握关键信息。基于这种直觉，我们的研究提出了信息密集型（IN2）培训，这是一种纯粹的数据驱动解决方案，可以克服中间迷失。具体来说，IN2 训练利用合成的长上下文问答
复制链接

扫一扫

猿类崛起@ CSDN认证博客专家 CSDN认证企业博客

码龄100天

169: 原创

8068: 周排名

7945: 总排名

14万+: 访问

: 等级

5058: 积分

2493: 粉丝

3285: 获赞

13: 评论

2737: 收藏

私信

关注

热门文章

最新评论

DSPy实战：三十分钟无痛上手自动化Prompt框架
m0_63629160: 想问一下这个数据集在哪里获取呢？
Pycharm配置conda环境(解决新版本无法识别可执行文件问题)
chelfng: 为什么创建好了env环境，pycharm中也跟你的一样创建好项目了，但是在conda中使用torch可以，在pycharm中就不行了
ChatGPT等大模型可以代替搜索引擎吗？
ha_lydms: 非常不错的技术领域文章分享，解决了我在实践中的大问题！博主很有耐心，更有对知识的热忱和热爱，写了这么实用有效的分享，值得收藏点赞。
ChatGPT等大模型可以代替搜索引擎吗？
征途黯然.: This article provides a wealth of information about ChatGPT等大模型可以代替搜索引擎吗 and is quite profound.
ChatGPT等大模型可以代替搜索引擎吗？
Kwan的解忧杂货铺@新空间代码工作室: 博主的博客是我的学习良师，每篇文章都充满了启发，让我得到了更多的智慧，每一次阅读都是一次知识的盛宴，让我增长了不少见识，你的博文总是给予我新的思考和启发，真的很感谢你一直以来的辛勤付出。期待你的未来更新。

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。