The CoT Collection: Improving Zero-shot and Few-shot Learning of Language Models via Chain-of-Though

最新推荐文章于 2025-04-05 21:48:32 发布

ShadyPi

最新推荐文章于 2025-04-05 21:48:32 发布

阅读量428

点赞数 1

分类专栏：自然语言处理文章标签：语言模型人工智能自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ShadyPi/article/details/132473961

版权

自然语言处理专栏收录该内容

26 篇文章

订阅专栏

The CoT Collection: Improving Zero-shot and Few-shot Learning of Language Models via Chain-of-Thought Fine-Tuning

主打CoT，收集了海量的CoT数据，如下图所示：在这里插入图片描述
主要的收集方法依然是基于LLM生成，首先人工手写并筛选出精品CoT样例，之后以这些样例为demo，让LLM输出某个问题的推理过程（rationale），从而获得大量的带rationale的问题作为数据集。

第一步，筛选数据集，主要基于FLAN Collection，把FLAN原来1836个任务减少到了1060个，主要去掉了多语言、过长、不公开、输入输出不匹配、重复和只能产生无意义和较短CoT的任务。

第二步，构造prompt，根据作者提供的附录其实没什么新意，就是先提供多个样例，每个样例包含[Instruction and Question], [Option], [Answer], [Rationale]，最后一个Example的rationale就让LLM补全。

第三步，交给LLM，作者采用的LLM是OpenAI的Codex。作者还另外提到，在demo种把问题的label放在rationale前面对生成高质量rationale很重要，可能是因为给答案放松了对LLM解决问题的要求。

第四步，过滤生成的rationale，作者删掉了rationale中没出现答案的、太长的以及相同的。

最后，作者对生成的这些rationale进行了评估，质量评估使用了ROSCOE的13个指标，又评估了rationale的多样性，显示他们的CoT Collection是更多样化的（动词更多样）。

之后就是实验部分了，他们提出的C2F2其实就是在FLAN-T5的基础之上再做二次fine-tune，数据集就是他们收集到的CoT Collection。之后的测试则是在非训练数据集，即unseen datasets上做的，考察经过这么大的fine-tune以后模型的泛化能力如何。

在这里插入图片描述
结果表明他们的C2F2确实是最好的，而且直接用原生T5在CoT Collection上面做Fine-Tune结果也比FLAN T5要好，说明他们这个数据集更有效。

除此之外作者还做了few-shot的实验，主要是用Lora做Adaption，就不放实验结果了。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

ShadyPi 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。