WebGPT

最新推荐文章于 2024-06-24 11:26:52 发布

go with me

最新推荐文章于 2024-06-24 11:26:52 发布

阅读量2.6k

点赞数

文章标签：深度学习神经网络机器学习自然语言处理语言模型

本文链接：https://blog.csdn.net/gowithme11123123/article/details/129749633

版权

WebGPT

简介

WebGPT是一种基于GPT-3的文本生成模型，它通过文本浏览环境对GPT-3进行微调，从而能够回答长篇问题并搜索和浏览网络。为了训练这个模型，作者采用了模仿学习的方法，通过让模型在与人类类似的任务中进行学习。同时，为了提高答案的准确性，模型需要在浏览网页时收集相关参考资料。作者使用了ELI5数据集，这是一个由Reddit用户提出的问题数据集，用于训练和评估WebGPT模型。通过行为克隆的方法对GPT-3进行微调，并在此基础上通过拒绝抽样算法对奖励模型进行训练，使得WebGPT模型的答案比Reddit用户的答案更受人类喜爱。具体而言，该模型的答案被人类评价为比Reddit用户的答案优秀的情况出现的概率为56%，比Reddit用户中最受欢迎答案的概率高出69%。

贡献：

创建了一个基于文本的Web浏览环境，使微调后的语言模型能够与之交互。这使其能够使用一般的方法，如模仿学习和强化学习，以端到端的方式改进信息检索和综合。
webgpt能生成带有参考文献的答案：模型从浏览的网页中提取的段落。这对于让标注者判断答案的事实准确性非常重要，同时避免了进行困难和主观的独立研究的过程。

环境设计

将文档检索外包给微软的Bing Web Search API，并使用无监督的预训练技术通过对GPT-3进行微调来实现高质量的综合。webgpt不是试图改进这些组成部分，而是专注于使用更真实的训练目标将它们结合起来。

流程：

搜索：当输入一个问题的时候，WebGPT会通过信息检索去找到top-k个最相关的文档并保存下来，这些文档的内容就是第一步的搜索结果
点选：可能最佳答案不在第一个文档，在第三个文档，所以要点击进入第三个文档
收藏：在第三个文档中找到符合问题的那一段落，将之收藏起来以待使用
重复上面三个步骤（因为对于一个问题可能包含好几个子问题要重复搜索）
回答：当觉得问题需要搜索的信息已经完成时，就可以选择回答，除了收藏外的所有信息都会消失。通过已收藏的内容去生成答案

训练

数据

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-3nrxAyfn-1679638027375)(D:\文档\顶会论文\图片\webgpt\dataset.png)]

在WebGPT中，训练数据分为两部分：Demonstrations和Comparisons。

Demonstrations是指人类演示数据集。由于预训练语言模型不会使用Web浏览，所以需要收集真人使用搜索引擎回答问题的数据。这些数据用于监督学习微调GPT-3。
Comparisons是指模型输出排名的数据集。训练后发现，只用Demonstrations并不能直接提升回复质量。所以收集了对同一问题模型生成的多个回复，并标注哪个更好，这种数据就是Comparisons。这些数据用于通过人类反馈的强化学习进一步微调监督模型。

Behavior cloning（行为克隆）

这一步就是机器学习人类检索适合文本的过程，对于GPT-3进行微调的操作。

Reward model（奖励模型）

使用一个额外的神经网络模型来估计给定状态和行动的奖励值。具体来说就是在相同的prompt下，模型会给出不同的答案，由人来给这些答案的一个好坏分数，并依据分数来排序，通过这些的训练数据集让这个额外的神经网络奖励模型能学会对GPT-3所生成的答案进行评分。

Reinforcement learning（强化学习）

这里的强化学习模型采用BC模型的参数初始化，通过RM生成奖励值，利用PPO算法更新模型参数，使得模型生成的结果得分越来越高。简单来说就是通过奖励模型给不同的生成答案进行打分，然后模型不断的优化自己的输出让奖励模型能打更高的分数。
PPO（Proximal Policy Optimization）算法是一种用于强化学习的算法，它的目的是让模型在学习过程中能够最大化累积回报。PPO算法通过使用近端策略优化来确保每次更新策略时，策略的变化不会太大，从而避免算法陷入局部最优解。
- 初始化越高RL模型出来，和SFT在一开始是一模一样的
- 首先就是将x和y丢入奖励模型中计算分数，期望这个分数能越高越好
- 因为在不断的更新中，RL的环境是不断变化的，那奖励模型基于SFT进行评估出来的x对应的y就会有偏差，随着模型的更新，强化学习模型产生的数据和训练奖励模型的数据的差异会越来越大。作者的解决方案是在损失函数中加入KL惩罚项来确保PPO模型的输出和SFT的输出差距不会很大。
- 只用PPO模型进行训练的话，会导致模型在通用NLP任务上性能的大幅下降，作者的解决方案是在训练目标中加入了通用的语言模型目标，也就是公式中的后半部分，这个变量在论文中被叫做PPO-ptx。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-XzVxG6Rv-1679638027376)(D:\文档\顶会论文\图片\webgpt\PPO.png)]

Reject Sampling（拒绝采样）

拒绝采样，对BC / RL模型生成的结果进行采样，并对采样后的结果通过RM选取回报值最大的结果作为最终结果。
在WebGPT中，拒绝采样被用来从语言模型生成的候选答案中选择最佳答案。具体来说，WebGPT会根据用户的输入生成多个候选答案，然后使用拒绝采样技术从这些答案中选择最佳答案。在选择最佳答案时，WebGPT会将候选答案送入一个奖励模型（reward model）中进行打分，得分最高的答案会被选为最终答案。
使用拒绝采样的优点是不需要进行额外的训练，而且可以保证生成的答案质量。但是，拒绝采样需要更多的推理时间和计算资源。在WebGPT中，拒绝采样是一种权衡，可以根据应用场景和系统资源来选择是否使用。

评估

ELI5:

两种不同的方式对WebGPT进行了ELI5测试集的评估，并从总体实用性、连贯性、事实准确性三方面来考量：

将模型生成的答案与网络浏览环境编写的答案进行了比较。
将模型生成的答案与ELI5数据集中的参考答案进行了比较，参考答案是Reddit上得到最高投票的答案。在这个评估中，一个担忧是详细的评估准则与真实用户并不一致；另一个担忧是Reddit的答案通常不包括引用文献，这会带来盲目性。为了缓解这两个担忧，首先从模型生成的答案中剥离了所有的引用和参考文献，然后雇佣了新的承包商来评估结果，新的承包商不熟悉先前的详细准则，而是使用一个更简单的准则。

虽然针对ELI5参考答案的评估有助于与之前的工作进行比较，但作者认为针对人类演示的评估更有意义，原因如下：

事实核查。在没有参考文献的情况下评估答案的事实准确性是困难的：即使有搜索引擎的帮助，通常也需要专业知识。然而，WebGPT和人类演示提供带有参考文献的答案。
客观性。使用最简指令使得很难知道选择一个答案胜过另一个答案的标准是什么。更详细的说明使得比较更具可解释性和一致性。
盲审。即使剥离了引用和参考文献，WebGPT提供的答案风格与Reddit答案不同，使得比较的盲审程度较低。相反，WebGPT和人类演示提供的答案风格类似。
答案意图。人们在ELI5上提问是为了获得原创的、简化的解释，而不是已经可以在网上找到的答案，但这些不是我们想要答案被评价的标准。此外，许多ELI5问题只有少数一些简短的回答。通过人类演示，更容易确保所使用的预期意图和付出的努力水平的一致性。

TruthfulQA

所有WebGPT模型在真实回答的百分比和真实且有信息的回答的百分比上均优于所有GPT-3模型（使用两个提示）。此外，WebGPT的真实且有信息的回答百分比随着模型大小的增加而增加，而GPT-3则没有。

实验

本文进行了一些额外的实验比较强化学习和拒绝采样以及与行为克隆的baseline。结果如上图所示，拒绝采样(Rejection sampling) 能够提供显著的收益，175B best-of-64 BC模型相较于175B BC模型有68%的时间是首选。此外，强化学习(RL)能够带来更小的收益，175B RL模型相较于175B BC 模型有58%的时间是首选。
尽管拒绝采样和强化学习都是对相同的奖励模型进行优化，这可能有几个原因来解释为什么拒绝采样优于强化学习：
多次尝试回答问题可能是有帮助的，只是为了利用更多的推理时计算。
环境是不可预测的：通过拒绝采样，模型能够查看更多的网站，并且评估它发现的信息。
奖励模型主要是从行为克隆和拒绝采样中收集的数据上进行训练，这可能对拒绝采样的过度优化鲁棒性强于强化学习。
强化学习需要超参数调整，而拒绝采样不需要。
合并强化学习和拒绝采样提供的收益并没有单独的拒绝采样更好。一个可能的原因是强化学习和拒绝采样都是针对奖励模型进行优化的，其很容易被过度优化。