Auto-Cot解读

1. Auto-Cot想解决什么问题?

1.1 目前关于LLMs有2个比较好的提示策略:

(1) Zero-Shot-Cot:也就是"Let‘s step by step"
(2) Manual-Cot:人工设计一些demo,这些demo包含question和reasoning。这些demo设计的质量以及和test sample的匹配度都会十分影响LLMs解决test sample的reasoning and facutality。
(3) 目前看来,Manual-Cot比Zero-Shot-Cot的提示效果更好,但是这些以及取决于:“这些demo设计的质量以及和test sample的匹配度都会十分影响LLMs解决test sample的reasoning and facutality。”
##Auto-Cot想法的来源:
自动化设计高质量以及与test sample匹配的demo。
Example for zero-shot-cot and manual-cot

1.2 这里还有一个概念我想注释一下ICL

ICL(In-Context Learning):给一个任务描述,以及input to output mapping,然后让LLMs去解决这一类任务。比如说在提示中说明这个任务的目的,以及如何给我返回正确的answer以及在一个demo或者一个template就足够了。最主要的是这个demo不给reasoning只给answer。

2. Challenge of Auto-Cot

2.1 预实验分析

(1)作者在预实验中比较了三种不同方法的推理正确率:Manual-cot,Retrieval-Q-CoT and Random-Q-CoT。
Retrieval-Q-CoT:针对每一个test sample利用余弦相似度从数据集中采样了top-8 questions。
Random-Q-CoT:随机采样8个questions。
(2)下图中在MultiArith的实验中,Retrieval-Q-CoT和Random-Q-Cot的demo的reasoning都是利用zero-shot-cot生成的,manual-cot是人工设计的。可以发现,manual-cot的reasoning要高于另外2种方法。而且Random-Q-Cot要高于Retrieval-Q-CoT。这里maual-cot策略更好的原因是:这种方法的demo中的reasoning都是正确的,而另外两种方法由于是自动生成的,所以可能存在错误的reasoning。【这里随机比检索好的原因可能是:llms在生成某一类问题上的能力不行,导致了生成的8个demo的examplers的reasoning都是错的,而随机的话,因为8个examplers的类型可能是不同的,导致了reasoning有对有错,可能性能反而还要好一些。(这里是不考虑paper中后续的内容给出的一个猜想)】
(2)但从另外2个实验中可以发现,Retrieval-Q-CoT and Random-Q-CoT这两种方法更好,因为这两个数据集有label,所以在这里的demo的reasoning都是直接从数据集中拿过来的,所以后面两组实验这两组实验效果更好,而且在这里检索方法比随机方法更好。但我觉得在后面2组实验中,后两种方法本质上就是manual-cot方法,不过是如何选择examplers罢了。这更像证明了一个idea:在demo中的reasoning都是正确的时候,检索相似的examplers比随机采样examplers要更好。
预实验结果

2.2 检索方法更容易被相似性误导

(1)找出直接使用zero-shot-cot让llm推理时错误的问题。
(2)然后对这些问题分别使用检索和随机采样方法分别进行再次推理。
(3)发现检索的方法在这些问题上错误率为46.9%,而随机采样方法错误率仅为25.8% .所以得出结论:检索的方法更容易被相似性误导。
(4)这里的实验我觉得缺了一步:应该分析对着128个问题做推理时,需要分析分别使用2种方法来进行采样的demo的零样本推理正确率进行分析才有可能得到这个结论。按照作者的方法,检索得到的examplers是更相似的,而随机得到的examplers相似度是不如检索得到的。
(5)这里的这个结论其实可以说明,examplers和test sample的相似度对推理性能的影响。如果有一个例子:两种方法得到的examplers错误都很多,但是经过检索的方法由于相似度更高,导致了结果错误,而随机由于相似度不高,导致llm在实际推理时可能被影响不大,导致了结果正确。这个数据更能说明这个结论。

2.3 Errors Frequently Fall into the Same Cluster

下图主要说明了一个问题:在使用zero-shot-cot推理时,不同类别的问题的错误率相差是很大的。(这个类别是通过对600个quesitons通过聚类得来的。)
在这里插入图片描述

2.4 Diversity May Mitigate Misleading by Similarity

结论:对提示中的8个不同的examplers来说,多样性越复杂,结果越好。
可能存在的原因:
(1)如果,llm在某一类问题上的错误率很高,那么如果多样性很少的话,8个例子中的很多demo可能都是错误的,然后受相似度的影响,会导致在这类问题上的性能很差。
(2)如果我保证多样性的话,或许刚好碰到这类问题的demo的reasoning是正确的,可以给一个正确的参考,因为保证一个是正确的概率比保证8个都是正确的概率要大很多,更别说还是在容易错误的问题上。其次,还有可能的是,对于本身错误足够高的问题上的联合概率可能会很小,导致llm在推理的时候,有可能不会参考这类方按,或者会多关注其他类别的方案,导致推理正确,或者最起码避开当前的方案。

3. Framework of Auto-Cot

到这里Auto-cot的流程就很容易得到了:根据上面的分析,作者给出了auto-cot的流程:
(1)从数据集中聚类出8个examplers,并且选每一簇最中心的exampers作为每一簇的examplers(2)利用这8个示例作为所有测试问题的示例来构建prompt,特别说明:对于所有测试问题,都采用这8个示例。

4. 一个十分有意思的问题

在实际的应用过程中,用户是一个问题问题上传的,而且用户也不可能专门去构建一个这样的提示,用户想推理所有问题,所以如何在我们的应用中自动的使用这个推理策略也是比较有意思的,特别是在用户提出第一个问题时,我们的系统中仅仅只得到了这一个问题,并布不能进行聚类等其他操作,无法利用auto-cot提示,所以如何在前期给一个prompt也是一个十分有意思的问题。

  • 22
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值