©PaperWeekly 原创 · 作者|金金
单位|阿里巴巴研究实习生
研究方向|推荐系统
用户使用搜索引擎的过程中,通常很难用单一的查询表达复杂的信息需求。在真实应用的过程中,用户需要根据当前搜索引擎的展示结果反复修改查询词。这一过程极大地增加了用户搜索的负担,影响了用户的搜索体验。
近期,澄清式提问(Asking Clarifying Questions)的提出为该问题的解决提供了新的思路。该方法根据用户给出的查询提出相关问题,从而更好地理解用户意图,展示更符合用户需求的排序结果,提高用户对搜索过程的满意度。本文将概述该方向的一些最新研究进展。
从任务提出到简单实现
论文标题:Asking Clarifying Questions in Open-Domain Information-Seeking Conversations
论文来源:SIGIR 2019
论文链接:https://arxiv.org/abs/1907.06554
本文发表于 SIGIR 2019,该论文首先提出了“通过澄清式提问理解信息检索中的用户意图”的任务;然后针对已有的查询,根据搜索引擎的查询词建议或已知的不同用户意图,人工构造澄清式问题和答案;在此基础上提出了根据查询和历史问答记录检索并选择当前问题的深度学习模型 BERT-LeaQuR 和 NeuQS。
1.1 任务流程
作者首先定义了搜索引擎中澄清式提问的流程(如图1所示)。根据用户初始的查询,系统建立用户需求表示,使用该需求表示分别检索相关文档和生成并选择可能提出的澄清式问题。用户根据系统展示的澄清式问题给出回答,系统则联合建模问答记录和查询,生成新的用户需求表示,以更好的检索相关文档。
▲ 图1. 搜索引擎中澄清式提问的流程
1.2 数据收集
作者此后建立了第一个用于搜索引擎澄清式提问的数据集 Qulac。具体构造流程如下:
形成查询-意图集合:作者使用 TREC Web track 09-12 中的 198 条主题作为初始查询,并将各主题分解为它包含的不同方面作为用户意图。统计信息显示,每个查询平均有 3.85 项意图,完整数据集共包含 762 项查询-意图对。
提出澄清式问题:作者邀请了多名标注人员,使其模仿对话代理的行为。标注人员根据已有的各主题包含的意图或搜索引擎自动生成的查询推荐为依据,为各查询提出澄清式问题。
编辑问题答案:作者邀请另一组标注人员,针对每一个澄清式问题,在给定查询和意图描述的情况下,手动编辑问题答案。
经过对无效问题的过滤,统计信息显示,完整数据集共包含 2639 条澄清式问题与 10277 项问题-答案对。
1.3 问题检索-选择模型
给定查询 和历史问答记录 (包括历史问题和用户答案)的条件,该模型的目的是预测系统应提出的下一问题 。具体来说,该模型包含两个部分:问题检索模型 BERT-LeaQuR 和问题选择模型 NeuQS。
问题检索模型根据给定的查询 选择 top-k 的澄清式问题 ,具体来说,该模型首先使用 BERT 生成查询和问题的表示,并将二者拼接输入全连接神经网络得到该问题被选择的概率 :
问题选择模型在检索结果的基础上进一步建模,选择向用户提出的问题。该模型同时考虑查询表示 ,问答上下文表示 ,候选问题表示 ,检索结果表示 和查询表现表示