论文 | WebGPT: Browser-assisted question-answering with human feedback

最新推荐文章于 2024-09-17 16:52:57 发布

龙的爹2333

最新推荐文章于 2024-09-17 16:52:57 发布

阅读量449

点赞数 5

分类专栏： RAG框架文章标签：人工智能自然语言处理 nlp gpt-3

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_49651195/article/details/139969440

版权

RAG框架专栏收录该内容

12 篇文章 0 订阅

订阅专栏

什么是WebGPT?

WebGPT是对GPT-3微调后得出的模型，它可以像人类一样在线搜索问题的答案，并添加引用来源，更加准确地回答开放式问题。

在回答问题时，WebGPT可以通过浏览器进行搜索，在不同链接中寻找相关答案，并在最后组织答案时，将引用来源标注上去，使得答案来源的准确性有迹可循。

为什么有WebGPT?

之前关于问答的研究大多专注与改进给定查询的文档检索，就是给模型挂上一个固定的知识库，这个知识库里的内容是固定的，无法与时俱进，所以作者把这个固定的知识库变成了搜索引擎，因为搜索引擎非常强大，可以索引大量最新的文档。此外，利用搜索引擎可以进行问答领域更高级的任务，就是可以回答更复杂的问题。

论文创新点：

创建了一个基于文本的网络浏览环境，经过微调后，模型可以与这个环境交互。这样做以后，就可以使用模仿学习和强化学习等通用方法，以端到端的方式改进检索和合成。
模型生成的回答是带有参考文献的，这样可以让生成的回答更具有可解释性。

模型怎么与网络环境交互？

作者设计了一个基于文本的web浏览环境，模型会根据环境的当前状态，给出关于用户提出的问题、当前光标位置、搜索到的结果等等的提示。如下图（a）所示：

然后模型必须发出以下指令，比如说运行Bing搜索、单击链接或者滚动之类的操作。

之后，当模型浏览这些检索结果时，它可以执行很多操作。比如，它可以引用当前页面的摘录。当它执行这个操作的时候，它会记录页面的标题、域名和摘要，如果之后生成的回答引用到这个内容，这些就是作为参考文献。记录完了之后，模型会继续浏览页面，直到达到操作的最大数量，结束浏览的指令被发出；或者达到引用的最大总长度。只要模型找到一个参考文献，它就必须生成最终回答。如下图（b）所示：

大概运作方式应该是这样：

（1）输入问题；

（2）WebGPT会从Bing的API中获取很多链接，它会自己筛选一些它认为高质量的链接，并给出这些链接的摘要；

（3）人可以再次筛选需要的链接；

（4）点击“答案生成”按钮，WebGPT会结合这些链接生成答案；

（5）人可以反馈答案是否满意，这期间所有的人类操作都可以当做反馈。

怎么训练模型？

人类的指导是这篇论文方法的核心部分。所以作者收集了人类使用浏览器回答问题的例子，文中称为演示。但是，仅仅凭借演示训练是不能直接优化答案质量的，也不可能让模型的表现超越人类的。所以，文章采用的方法是，收集两个模型生成的对同一个问题的答案，然后去询问人类更赞同哪一个回答，这个过程称为比较。

微调的基础模型是GPT-3型号的不同参数的模型，分别是760M、13B以及175B的。文章采用了四种主要的训练方法：

使用演示的行为克隆（即监督微调）
使用比较的奖励建模
针对奖励模型的强化学习
针对奖励模型进行拒绝采样

关注

5
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

龙的爹2333 CSDN认证博客专家 CSDN认证企业博客

码龄4年

37: 原创

52万+: 周排名

3万+: 总排名

3万+: 访问

: 等级

1111: 积分

580: 粉丝

735: 获赞

7: 评论

671: 收藏

私信

关注

热门文章

分类专栏

最新评论

代码随想录—力扣刷题笔记之字符串篇
三月七꧁ ꧂: 从前有位名叫ST的公主，每日敲键盘码字，可如今字海静悄悄，只听得见一声“催更”。
代码随想录——力扣刷题笔记之双指针法
三月七꧁ ꧂: 数日不见新博文，空余电脑待尘封。代码江湖需点墨，朋友何时续前功？
代码随想录—力扣刷题笔记之字符串篇
CSDN-Ada助手: 恭喜作者发布了第6篇博客！看到您在力扣刷题笔记之字符串篇的总结，让我受益匪浅。希望您能继续坚持创作，分享更多优质内容。同时，建议您在下一篇博客中可以尝试加入一些实际应用场景或者个人见解，让读者更加深入地了解字符串相关知识。期待您的下一篇作品！祝好！🌟📝
代码随想录-力扣刷题笔记
三月七꧁ ꧂: 我只能这样形容博主的文章：深入浅出诠真理，行云流水妙无痕。字里行间皆经典，赞叹之情溢心间。在这个充满数字代码和技术创新的世界中，我常常被那些隐藏在屏幕后的天才们所吸引，曾有幸目睹过博主的真容，那真是眉如远山含秋色，目似秋水映星辰。知海无边才女志，花容月貌俱佳音。
代码随想录——力扣刷题笔记之链表面试题
三月七꧁ ꧂: 施心技艺超群出，彤意表达妙绝伦。真知灼见展眼前，笨中求智得精髓。在这个数字化的时代，博主用自己的方式证明，技术与美，可以在一个人身上和谐共存。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。