V-STaR: DPO Verifier + STaR提升LLM推理能力_v-star: training verifiers for self-taught reasone-CSDN博客

本文链接：https://blog.csdn.net/m0_59235945/article/details/143373995

V-STaR: Training Verifiers for Self-Taught Reasoners是发表在COLM 2024的关于提升LLM推理能力的一篇论文，我们之前读过STaR以及后续改进工作Quiet-STaR，本文同样是对STaR进行改进，STaR利用few-shot CoT prompt让LLM生成solution(rationale/thought)和final answer，然后将final answer错误的solution数据丢弃，只用correct solution来fine-tuning LLM，但是correct solution数量往往很少，所以STaR作者提出了rationalization方法扩充微调数据集，效果挺明显的。本文作者认为错误的solution数据丢掉太可惜了，它们同样包含有用信息，需要利用起来，让LLM从错误中也可以学习。怎么利用呢？想到用correct和wrong的solution数据+DPO训练verifier模型，然后在LLM inference阶段每次sample多个solution，用verifier挑选top1输出。

这就是V-STaR = Verifier + STaR.

V-STaR

想提升LLM推理(reasoning/thinking)能力，有这么几类方法：

用人工标注的数据集fine-tuning，比如用gsm8k训练集对LLM sft，因为的中含有rationale和answer，这样得到的LLM就可以生成rationale了
few-shot/zero-shot CoT prompt
以STaR为典型的self-improvement + iterative方法，LLM自己生成rationale然后fine-tuning，这个过程不断迭代
verifier，这是OpenAI比较喜欢用的方法，如果整个推理提升的流程不涉及RL，可以把verifier看作推荐系统/搜索引擎领域的ranker，简单来说，LLM会sample多个rationale，然后verifer对他们排序选择top1作为输出，如果推理流程中包含了RL，那么verifer就相当于reward model
…

本文结合了verifier和STaR。

下面是完整的训练流程：

generator指的就是要提升推理能力的LLM，verifier结构同generator，只不过多了一个linear head用于预测score。如果我要提升Llama-3.1-8B在gsm8k的推理能力，那么它就是，gsm8k的训练集就是，第一步就是做sft得到模型。让训练generator的数据集，训练verifier的数据集接下来进入迭代过程，每一次迭代：

当前的generator 对训练集每个采样个
对采样的标注正确or错误的标签，筛选出的正确数据，添加到，将所有采样的数据以及正误标签数据添加到。这里是添加，因此和越来越大，和STaR不同，STaR只用当前迭代的数据训练模型
在上sft得到新的generator

当迭代结束后，才训练verifier。也就是说，verifier只训练一次，作者做了实验每次迭代都训练verifier，发现起码所用的数据集上面没有提升，那就减少计算量只训练一次verifier。

重点看下STaR和V-STaR数据集的区别：

如何训练verifier？OpenAI给出的方式是多任务：同时做next token prediction和reward(是否正确)预测。作者认为如果把正确的solution看作prefered，那么verifier不就是在做preference learning吗？可以用DPO训练，注意是对训练，这样和RLHF/DPO做alignment的流程一致了：LLM pre-training --> sft --> RLHF/DPO。

实验效果是很哇塞的：

并且用DPO训练verifier要比传统多任务得到的verifier (outcome-supervised reward model, ORM)还要好：

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述