论文 | WebGPT: Browser-assisted question-answering with human feedback

什么是WebGPT?

WebGPT是对GPT-3微调后得出的模型,它可以像人类一样在线搜索问题的答案,并添加引用来源,更加准确地回答开放式问题。

在回答问题时,WebGPT可以通过浏览器进行搜索,在不同链接中寻找相关答案,并在最后组织答案时,将引用来源标注上去,使得答案来源的准确性有迹可循。

为什么有WebGPT?

之前关于问答的研究大多专注与改进给定查询的文档检索,就是给模型挂上一个固定的知识库,这个知识库里的内容是固定的,无法与时俱进,所以作者把这个固定的知识库变成了搜索引擎,因为搜索引擎非常强大,可以索引大量最新的文档。此外,利用搜索引擎可以进行问答领域更高级的任务,就是可以回答更复杂的问题。

论文创新点:

  1. 创建了一个基于文本的网络浏览环境,经过微调后,模型可以与这个环境交互。这样做以后,就可以使用模仿学习和强化学习等通用方法,以端到端的方式改进检索和合成。
  2. 模型生成的回答是带有参考文献的,这样可以让生成的回答更具有可解释性。

模型怎么与网络环境交互?

作者设计了一个基于文本的web浏览环境,模型会根据环境的当前状态,给出关于用户提出的问题、当前光标位置、搜索到的结果等等的提示。如下图(a)所示:

然后模型必须发出以下指令,比如说运行Bing搜索、单击链接或者滚动之类的操作。

之后,当模型浏览这些检索结果时,它可以执行很多操作。比如,它可以引用当前页面的摘录。当它执行这个操作的时候,它会记录页面的标题、域名和摘要,如果之后生成的回答引用到这个内容,这些就是作为参考文献。记录完了之后,模型会继续浏览页面,直到达到操作的最大数量,结束浏览的指令被发出;或者达到引用的最大总长度。只要模型找到一个参考文献,它就必须生成最终回答。如下图(b)所示:

大概运作方式应该是这样:

(1)输入问题;

(2)WebGPT会从Bing的API中获取很多链接,它会自己筛选一些它认为高质量的链接,并给出这些链接的摘要;

(3)人可以再次筛选需要的链接;

(4)点击“答案生成”按钮,WebGPT会结合这些链接生成答案;

(5)人可以反馈答案是否满意,这期间所有的人类操作都可以当做反馈。

怎么训练模型?

人类的指导是这篇论文方法的核心部分。所以作者收集了人类使用浏览器回答问题的例子,文中称为演示。但是,仅仅凭借演示训练是不能直接优化答案质量的,也不可能让模型的表现超越人类的。所以,文章采用的方法是,收集两个模型生成的对同一个问题的答案,然后去询问人类更赞同哪一个回答,这个过程称为比较。

微调的基础模型是GPT-3型号的不同参数的模型,分别是760M、13B以及175B的。文章采用了四种主要的训练方法:

  1. 使用演示的行为克隆(即监督微调)
  2. 使用比较的奖励建模
  3. 针对奖励模型的强化学习
  4. 针对奖励模型进行拒绝采样
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值