The CoT Collection: Improving Zero-shot and Few-shot Learning of Language Models via Chain-of-Though

文章介绍了TheCoTCollection,一个通过改进的链式思考流程收集和筛选的大型语言模型数据集,用于提升零样本和少量样本学习效果。研究者使用OpenAI的Codex生成高质量的推理过程(rationale),并通过C2F2模型进行二次Fine-tune,结果显示该数据集有效并增强了模型的泛化能力。
摘要由CSDN通过智能技术生成

The CoT Collection: Improving Zero-shot and Few-shot Learning of Language Models via Chain-of-Thought Fine-Tuning

文章链接

主打CoT,收集了海量的CoT数据,如下图所示:在这里插入图片描述
主要的收集方法依然是基于LLM生成,首先人工手写并筛选出精品CoT样例,之后以这些样例为demo,让LLM输出某个问题的推理过程(rationale),从而获得大量的带rationale的问题作为数据集。

第一步,筛选数据集,主要基于FLAN Collection,把FLAN原来1836个任务减少到了1060个,主要去掉了多语言、过长、不公开、输入输出不匹配、重复和只能产生无意义和较短CoT的任务。

第二步,构造prompt,根据作者提供的附录其实没什么新意,就是先提供多个样例,每个样例包含[Instruction and Question], [Option], [Answer], [Rationale],最后一个Example的rationale就让LLM补全。

第三步,交给LLM,作者采用的LLM是OpenAI的Codex。作者还另外提到,在demo种把问题的label放在rationale前面对生成高质量rationale很重要,可能是因为给答案放松了对LLM解决问题的要求。

第四步,过滤生成的rationale,作者删掉了rationale中没出现答案的、太长的以及相同的。

最后,作者对生成的这些rationale进行了评估,质量评估使用了ROSCOE的13个指标,又评估了rationale的多样性,显示他们的CoT Collection是更多样化的(动词更多样)。

之后就是实验部分了,他们提出的C2F2其实就是在FLAN-T5的基础之上再做二次fine-tune,数据集就是他们收集到的CoT Collection。之后的测试则是在非训练数据集,即unseen datasets上做的,考察经过这么大的fine-tune以后模型的泛化能力如何。

在这里插入图片描述
结果表明他们的C2F2确实是最好的,而且直接用原生T5在CoT Collection上面做Fine-Tune结果也比FLAN T5要好,说明他们这个数据集更有效。

除此之外作者还做了few-shot的实验,主要是用Lora做Adaption,就不放实验结果了。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

ShadyPi

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值