Automatic Prompt Augmentation and Selection with Chain-of-Thought from Labeled Data
文章链接
港科的工作,主要着眼于CoT样例的生成和选取,数据增强的部分就是用已有的CoT样例做few-shot推理,让LLM生成新的CoT样例(或者直接用Zero-shot-CoT),将生成正确的样例加入到备选池子里。
至于如何选择,则是将抽取样例的过程看成从一个随机分布里采样的过程。用一些参数构建一个随机分布,该分布的采样值对应不同的CoT样例。为了学习这个分布,作者采用了强化学习的方法。
实验显示在各数据集上达到了SOTA。