思维线索(Thread of Thought)-ThoT梳理混乱的语境

原创

已于 2024-05-03 02:43:20 修改 · 1k 阅读

·

23

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#人工智能 #自然语言处理

于 2024-03-20 18:13:15 首次发布

本文介绍了一种新的策略ThreadofThought(ThoT)，它模仿人类认知过程，帮助大型语言模型在处理混乱上下文时提高推理性能。ThoT通过分段和分析上下文，增强了LLMs在复杂信息处理中的效率，可与多种模型和提示技术无缝集成。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

论文地址：Thread of Thought Unraveling Chaotic Contexts

摘要

大型语言模型（LLMs）在自然语言处理领域开启了一个变革的时代，在文本理解和生成任务上表现出色。然而，当面对混乱的上下文环境（例如，干扰项而不是长的无关上下文）时，它们会遇到困难，导致无意中忽略了混乱上下文中的某些细节。为了应对这些挑战，我们引入了“思维线索”（Thread of Thought，ThoT）策略，该策略受到人类认知过程的启发。ThoT策略能够系统地分段和分析扩展的上下文，同时巧妙地选择相关信息。这个策略作为一个多功能的“即插即用”模块，可以与各种LLMs和提示技术无缝集成。在实验中，我们使用了PopQA和EntityQ数据集，以及我们收集的多轮对话响应数据集（MTCR），来说明ThoT策略在推理性能上显著优于其他提示技术。

Introduction

LLMs在人工智能领域，特别是在自然语言理解和生成方面取得的显著进展。这些模型在多项自然语言处理任务中展示了卓越的能力，如情感分析、机器翻译和摘要生成等，并在法律咨询和医疗诊断等行业中发挥着重要作用。

然而，尽管LLMs在处理长文本和复杂对话场景中表现出色，但它们在面对“混乱上下文”（Chaotic Contexts）时仍面临挑战。所谓的混乱上下文是指输入文本中包含大量来自不同来源的信息，这些信息可能是相互关联的，也可能是完全不相关的，且某些信息的重要性会根据上下文的不同而变化。这与“长上下文”（Long Context）不同，混乱上下文更强调信息的复杂性和数量，而不仅仅是文本的长度。

为

最低0.47元/天解锁文章

200万优质内容无限畅学

博客等级

码龄9年

417
原创

1万+
点赞

9876
收藏

6933
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

上一篇：: RAPTOR：树结构的索引和检索系统的递归抽象处理

下一篇：: Chain of Note-CoN增强检索增强型语言模型的鲁棒性

最新评论

Mamba和状态空间模型(SSM)的视觉指南：替代 Transformers 的语言建模方法
a.南曦: 能请问一下，可不可以共享一下第一张图片的高清图片呀
记一次港交所面试
liulicsu: 是纯英文面试吗
拆解 Transformer 的训练过程
tjuwzan: 最近在看Transformer的知识，的确有些地方有点没搞明白，想先请教几个问题： 1. 本篇主要讲Transformer的训练环境，图上模型最右侧，也就是Decoder的下面，是Output Embedding, 最上面是Output，他们之间有关系吗？ 2. 训练，如果是传统的机器学习或者深度学习，如果是Supervised Learning的话，应该有输入，ground truth，以及loss function，但Transformer很少有人提这个，那么Transformer的学习过程是什么？Loss Function是什么？ 3. 还是训练问题，普通深度学习模型学习的大概是W and B，Transformer的学习是Wq, Wk, Wv吗？是如何学习的呢？尤其在第7节里描述：例如，对于计算 Query 矩阵，权重矩阵的行数必须与转置矩阵的列数相同，而权重矩阵的列数可以任意；例如，我们假设权重矩阵有 4 列。权重矩阵中的值介于 0 和 1 之间，随机初始化，当 Transformer 开始学习语料的含义时，这些值会更新。文中提到的三句话，是不是语料？咱们的例子中是不是就是用这三句话作为训练例子呢？ 4. 依然是文章中描述的，把when you play the game of thrones, you win or you die. 这句话有两个部分，前面部分作为输入，后面部分作为输出，那么第一句，I drink and I know things，这里面只有一句，怎么分输入和输出呢？ 5. 掩码的作用没太理解，可否解释一下呢？很多都说是为了让模型只参考前面，而不看后面，这句话还是没有真正理解。程序员出身，一直是按照程序员思维想弄清楚每个细节，但是NLP基础有点薄弱，理解一些思想有点难度。多谢解答
Java内存模型（JMM）与Volatile关键字底层原理
Yunwushenyanying: 讲的太全面了！非常有帮助
记录些MySQL题集（4）
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天值得看】榜单，全部的排名请看 https://bbs.csdn.net/topics/619168846。

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。