搜索Agent方案

最新推荐文章于 2024-08-14 22:29:49 发布

人工智能MOS

最新推荐文章于 2024-08-14 22:29:49 发布

阅读量937

点赞数 21

文章标签： microsoft 人工智能计算机视觉

本文链接：https://blog.csdn.net/2301_81887304/article/details/135966996

版权

本文介绍了WebCPM方案，它旨在解决与搜索引擎交互中的问题，如query不适配、排名和snippet不足。该方案基于WebGPT、WebGLM、WebCPM的论文，涉及Search、Retrieve、Synthesis和Action四个模块，用于长文本开放问答LFQA。WebCPM通过与Bing搜索API交互，通过多轮查询和内容聚合来生成答案。文章详细讨论了每个模块的功能，并对比了Interactive和Pipeline两种实现方式。

摘要由CSDN通过智能技术生成

为啥需要整体方案，直接调用搜索接口取Top1返回不成嘛？要是果真如此Simple&Naive，New Bing岂不是很容易复刻->.->

我们先来看个例子，前一阵火爆全网的常温超导技术，如果想回答LK99哪些板块会涨，你会得到以下搜索答案

从以上的搜索结果不难发现，Top1答案并不能回答问题，在和搜索引擎交互中几个可能的问题有

Query：用户的query不适配搜索引擎，导致搜索不到有效内容；或者问题需要通过类似Self Ask的思维链拆解通过多轮搜索来解决
Ranking：细看langchain的搜索Wrapper，会发现它默认只使用搜索的Top1返回，但是除了传统百科问题，这类问题因为做过优化，Top1往往是最优答案。但其他场景，例如当前问题，第三个内容显然更合适。当前传统搜索引擎并非为大模型使用设计，因此需要后接一些优化排序模块，例如REPLUG论文
Snippet: Bing的网页标题下面会默认展示150字左右根据query定位的正文摘要内容，也是langchain等框架使用的网页结果。但是不难发现，snippet太短或者定位不准会导致snippet缺乏有效信息

为了解决上述提到的3个主要问题，我们会基于WebGPT，WebGLM，WebCPM的3篇论文，详述如何更有效的和搜索引擎进行交互，来解决长文本开放问答LFQA问题。和搜索引擎的交互主要分成以下4个模块

Search：生成搜索请求query，或基于结果进行query改写，请求搜索API。类似self-Ask里面的Thought，只不过selfask强调问题拆解，而这里的search还有query改写，追问等功能
Retrieve：从搜索返回的大段内容中，定位可以回答query的支撑性事实，进行抽取式摘要、生成式摘要。类似React里面的LookUp行为，只不过更加复杂不是简单的定位文字。
Synthesis: 对多个内容进行组装，输入模型进行推理得到答案
Action: 针对需要和搜索引擎进行自动化多轮交互的场景，需要预测下一步的行为，是继续搜索，抽取摘要，还是停止搜索，组装内容进行推理等等，对应LLM Agent中的规划模块。其实就是丰富了React/SelfAsk里面的Action，加入了更多和搜索引擎交互的行为，例如继续浏览，翻页等等

虽然论文的发布顺序是webcpm>webglm>webgpt，但考虑webcpm开源了很全面的中文数据哈哈，手动点赞！我会以webcpm作为基准详细介绍，再分别介绍webglm和webgpt的异同点。

webcpm

paper：WEBCPM: Interactive Web Search for Chinese Long-form Question Answering

github:https://github.com/thunlp/WebCPM

WebCPM其实是这三篇论文中最新的一篇，所以集成了webgpt和webglm的一些方案。构建了通过和搜索引擎进行多轮交互，来完成长文本开放问答(LFQA)的整体方案。它使用的搜索API是Bing。23名标注人员通过和搜索进行多轮交互，来获取回答问题所需的支撑性事实。

webCPM的问题来自Reddit上的英文QA转成中文。之所以使用Reddit而非知乎，百度知道，是因为后两者的答案往往经过很好的处理，直接搜索一轮就能获得很好的答案，降低了多轮搜索的交互难度。人工标注的搜索数据微调10B的CPM模型并在LFQA任务拿到了不错的效果。

WebCPM的整体框架就是上面提到的4个模块，下面我们来分别介绍。强烈建议和源码结合起来看，论文本身写的略简单，哈哈给读者留下了充分的想象空间。

Action：行为规划

首先是行为规划，也就是让模型学习人和搜索引擎交互生成的行为链路。webcpm针对交互式搜索问题，定义了包括搜索，页面加载，页面下滑等以下10个行为。不过个人感觉如果只从解决长文本问答出发，以下行为中的Scroll，load page等操作其实可能可以被优化掉，因为内容的遍历可以通过引入排序模块，和以上的摘要模块来筛选相关和不相关的内容，并不一定要通过Action来实现。这样可能可以进一步简化Action空间，提升效果。

针对行为序列的建模，被抽象为文本分类问题。把当前状态转化为文本表述，预测下一步Action是以上10分类中的哪一个。当前状态的描述包括以下内容

最初的问题：question
当前的搜索query：title
历史Action序列拼接：last_few_actions，消融实验中证明历史Action序列是最重要的，哈哈所以可能可以简化成个HMM？
历史全部摘要内容拼接：quotes
上一步的搜索界面：past_view, 上一步页面中展示所有内容的标题和摘要拼接的文本
当前搜索界面：text, 当前页面中展示所有内容的标题和摘要拼接的文本
剩余Action步骤：actions_left

以下为指令样本的构建代码，就是把以上的状态拼接作为input，把下一步Action作为Output

def make_input(self, info_dict, type="action"

最低0.47元/天解锁文章

人工智能MOS

关注

21
点赞
踩
18

收藏

觉得还不错? 一键收藏
0
评论
搜索Agent方案

Retriever负责从网页正文中，抽取和Query相关的内容，也就是一个阅读理解/抽取式摘要问题。这样就不需要依赖搜索API直接提供的snippet摘要，可以针对你的场景来设计抽取的长度，以及是整段抽取，还是抽取多个段落组合。为了降低推理延时，webcpm通过decoder实现了类似span抽取的方案，解码器只解码应当抽取的段落的第一个字和最后一个字。例如Query = 麦田怪圈是什么？
复制链接

扫一扫