The CoT Collection: Improving Zero-shot and Few-shot Learning of Language Models via Chain-of-Thought Fine-Tuning
主打CoT,收集了海量的CoT数据,如下图所示:
主要的收集方法依然是基于LLM生成,首先人工手写并筛选出精品CoT样例,之后以这些样例为demo,让LLM输出某个问题的推理过程(rationale),从而获得大量的带rationale的问题作为数据集。
第一步,筛选数据集,主要基于FLAN Collection,把FLAN原来1836个任务减少到了1060个,主要去掉了多语言、过长、不公开、输入输出不匹配、重复和只能产生无意义和较短CoT的任务。
第二步,构造prompt,根据作者提供的附录其实没什么新意,就是先提供多个样例,每个样例包含[Instruction and Question], [Option], [Answer], [Rationale],最后一个Example的rationale就让LLM补全。
第三步,交给LLM,作者采用的LLM是OpenAI的Codex。作者还另外提到,在demo种把问题的label放在rationale前面对生成高质量rationale很重要,可能是因为给答案放松了对LLM解决问题的要求。
第四步,过滤生成的rationale,作者删掉了rationale中没出现答案的、太长的以及相同的。
最后,作者对生成的这些rationale进行了评估,质量评估使用了ROSCOE的13个指标,又评估了rationale的多样性,显示他们的CoT Collection是更多样化的(动词更多样)。
之后就是实验部分了,他们提出的C2F2其实就是在FLAN-T5的基础之上再做二次fine-tune,数据集就是他们收集到的CoT Collection。之后的测试则是在非训练数据集,即unseen datasets上做的,考察经过这么大的fine-tune以后模型的泛化能力如何。
结果表明他们的C2F2确实是最好的,而且直接用原生T5在CoT Collection上面做Fine-Tune结果也比FLAN T5要好,说明他们这个数据集更有效。
除此之外作者还做了few-shot的实验,主要是用Lora做Adaption,就不放实验结果了。