[NeurIPS 2022] STaR: Bootstrapping Reasoning With Reasoning

连理o

已于 2025-01-17 15:52:23 修改

阅读量1k

点赞数 9

文章标签： NeurIPS 2022

于 2024-10-05 21:03:33 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42437114/article/details/142713274

版权

模型部署专栏收录该内容

42 篇文章

订阅专栏

Contents

Introduction
Method
Experiments
References

Introduction

CoT 推理可以有效提升 LLM 推理能力，但 few-shot prompting 无法发挥 CoT 的全部潜力，训练能够生成中间推理步骤 (i.e., rationale) 的 LLM 又需要大量人工标注 rationale，为此作者提出 STaR (Self-Taught Reasoner)，可以仅利用少量含有 rationale 的标注数据和大量不含 rationale 的标注数据，迭代式地生成大量含有 rationale 的数据集并基于此训练能够生成 rationale 的 LLM，有效提升 LLM 的复杂推理能力

Method

在这里插入图片描述

Rationale Generation Bootstrapping (STaR Without Rationalization). 给定预训练 LLM $M$ 和 small prompt set $\mathcal{P}=\{(x_{i}^{p},r_{i}^{p},y_{i}^{p})\}_{i=1}^{P}$ (e.g. $P = 10$ )，其中 $x$ 为问题， $r$ 为中间推理步骤， $y$ 为问题回答，可以利用 few-shot prompting 为一个更大的数据集 $\mathcal D=\{(x_i,y_i)\}_{i=1}^D$ 生成中间推理步骤 $\hat r_i$ 和答案 $\hat y_i$ ，这样就得到了含有中间推理步骤的大规模数据集。此外，作者只保留其中 $\hat y_i=y_i$ 的样本，因为这些样本对应的中间推理步骤质量总体来说会更高一些，由此得到 filtered dataset，在此数据集上微调 $M$ 得到可以直接生成中间推理步骤的 LLM. 上述步骤为 1 个循环，STaR 会重复上述循环多次，每次都用上一轮循环中得到的最新的生成中间推理步骤的 LLM $M_{n-1}$ 为 $\mathcal D$ 生成中间推理步骤得到 filtered dataset，然后在该数据集上基于预训练 LLM $M$ 重新训练得到新的生成中间推理步骤的 LLM $M_n$ ；上述优化过程可以被近似看作 policy gradient，其中 $J (M, X, Y)$ 为 total expected reward across the dataset
Rationalization. 上述步骤还有一个缺点，就是如果 $\mathcal D$ 中某些难样本始终无法生成正确答案，那么这些样本将永远无法加入 filtered dataset，无法被有效学习；为此，作者给生成错误答案的样本 prompt 中加入提示正确答案的 hint 来引导模型生成中间推理步骤和最终答案
STaR.

Experiments

Symbolic Reasoning: Results on Arithmetic.
Natural Language Reasoning: Commonsense Question Answering.
Mathematical Reasoning in Language: Grade School Math.

References

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。