WebGPT与WebGLM

最新推荐文章于 2024-05-16 09:41:52 发布

人工智能MOS

最新推荐文章于 2024-05-16 09:41:52 发布

阅读量1.7k

点赞数 40

文章标签：人工智能 opencv 计算机视觉

本文链接：https://blog.csdn.net/2301_81887304/article/details/135967029

版权

本文介绍了WebGPT和WebGLM两个项目，它们利用浏览器辅助进行问答，并结合人类反馈进行模型训练。WebGPT使用强化学习和拒绝采样方案，数据收集包括人类交互数据和模型回答的偏好数据。WebGLM则自动化程度更高，依赖较少的人工标注，采用大模型生成和过滤样本，使用线上问答论坛的点赞数据作为偏好数据。两者都涉及了人工智能、计算机视觉和自然语言处理等领域。

摘要由CSDN通过智能技术生成

WebGPT

paper: WebGPT：Browser-assisted question-answering with human feedback

Demo: https://openaipublic.blob.core.windows.net/webgpt-answer-viewer/index.html

webgpt的论文发表最早，但论文本身写的比较"高山仰止"，可能先读完webcpm再来读webgpt，会更容易理解些，只看收集交互式搜索数据使用的界面，就会发现二者非常相似。

webgpt的问题以ELI5为主，混合了少量TriviaQA，AI2，手写问题等其他问题。搜索引擎也是使用了Bing API。和webcpm相同，为了避免直接找到答案简化搜索流程，webgpt过滤了Reddit，quora等类知乎的站点信息，提高任务难度。

多数细节和webcpm比较类似，最大的不同是webgpt除了使用指令微调，还加入了强化学习/拒绝采样的偏好打分方案。

数据收集

webgpt的数据收集分成两部分：

Demonstrations:和webcpm的全流程搜索数据类似，从键入query，搜索，摘要，到问题回答，收集人类的交互数据，这里不再细说
Comparison: 同一个query模型生成的两个回答的偏好数据，用于训练偏好模型。webgpt开源了这部分的数据

以下我们细说下Comparison的数据集构建。为了降低偏好标注的噪音，和人类偏好主观性的影响，webgpt只使用引用源来判断模型回答的优劣，具体标注步骤如下

Flags：剔除不合理，争议性问题
Trustworthiness：先对模型引用的数据源进行标注：分为Trustworthy，Netural, Suspicious三挡，区分不同网页的权威性和真实性
Annotations：选定模型回答的每一个观点（高亮），根据该观点是否有引用支持，以及支持该观点的引用在以上的权威性分类中属于哪一档，来综合评价每个观点。也分为三挡strong support, weak support, no support。同时需要标注每个观点对于回答最终提问的重要性，有core,side,irrelevant三挡。
Ratings：分别对模型采样生成的AB两个答案标注完以上3步之后，才到对比打分的环节。webgpt给出了很详细的如何综合每个观点的重要性和是否有支撑，对AB答案进行觉得打分，再对比两个打分得到相对打分，此处有无数人工智能中智能的人工

最低0.47元/天解锁文章

人工智能MOS

关注

40
点赞
踩
43

收藏

觉得还不错? 一键收藏
0
评论
WebGPT与WebGLM

评估方案，论文把webgpt生成的结果，和Eli5数据集的原始结果（Reddit上的高赞答案），以及Demonstration中人工标注的答案进行偏好对比，让标注同学选择更偏好的答案。效果上，175B的微调模型，在64个回答中采样RM打分最高的答案，效果上是可以显著超越人工回答的。其次RL的初始模型，对标以上webgpt的BC模型。
复制链接

扫一扫