优秀博士学位论文分享: 会话搜索用户行为及相关检索技术研究

优秀博士学位论文代表了各学科领域博士研究生研究成果的最高水平,本公众号近期将推出“优秀博士学位论文分享”系列文章,对人工智能领域2023年优秀博士学位论文进行介绍和分享,方便广大读者了解人工智能领域最前沿的研究进展。

“博士学位论文激励计划”(原优秀博士学位论文奖)是对博士研究生学位论文的一项重大奖励,由各大学会通过严格评选后颁布。中国计算机学会、中国自动化学会、中国人工智能学会等各大学会每年都会颁布该奖项。该奖项的目的是促进学术研究的卓越性,并鼓励产出高质量的博士论文。博士研究生如果能够荣获该奖项,则表明其学术研究生涯早期的成果受到了很高的认可。

本推文主要介绍陈佳博士的研究成果,其博士论文《会话搜索用户行为及相关检索技术研究》荣获了2023年中国计算机学会“博士学位论文激励计划”(原优秀博士学位论文奖)。这篇论文提出了一系列关于会话搜索用户行为和相关检索技术的研究,旨在提升会话搜索系统的性能和用户体验。通过构建面向单轮搜索的预训练语言模型、分析用户查询重构行为、以及优化会话搜索系统中各个模块的性能等方式,该论文深入挖掘了用户在多轮搜索过程中的交互行为模式,并在实验中取得了显著的性能提升。通过对数据集构建、用户行为分析等多个方面的系统性研究,该论文为会话搜索任务的理解和建模提供了重要的指导和见解。本推文的作者为朱旺,审校为陆新颖和许东舟。

一、 背景与挑战

在互联网时代,信息量的爆炸性增长给用户带来了一系列挑战。首先,信息超载使得用户很难在海量信息中找到所需的内容。其次,注意力稀缺导致用户难以集中精力深入搜索,容易产生信息焦虑和疲劳。在这种背景下,用户往往需要通过多轮的会话搜索来逐步获取所需信息,但现有搜索引擎对于这种复杂的搜索行为支持不足。在会话搜索过程中,用户的搜索意图可能不明确,行为模式复杂,这给文档排序和查询推荐带来了挑战。另外,用户对搜索结果的满意度通常较低,因为他们往往感知到搜索过程中的困难。因此,为了提升用户的搜索体验,需要深入理解用户的会话搜索行为,并针对性地改进搜索系统,以增强用户意图表示,提高搜索结果的质量和用户满意度。综上所述,论文的研究挑战主要包括:

1) 数据集的限制:现有的会话搜索数据集规模小、收集成本高,难以满足复杂模型的训练需求。学术界迫切需要真实且高质量的会话搜索数据集,以支持更深入的研究。

2) 模型的不可解释性和鲁棒性:现有模型往往是黑盒模型,缺乏对用户行为和交互规律的深入理解,也无法提供合理的解释。

3) 异质环境下的用户行为模式未知:在现代搜索页面中,用户面对更多异质信息模块,其行为模式尚未被充分理解。

4) 对用户会话搜索行为的理解和建模不足:需要将传统用户模型与会话上下文因素相结合,提升用户意图和满意度的建模准确性。

二、方法

为了解决这些挑战,论文提出了多项解决方案。首先,针对缺乏大规模高质量的会话搜索数据集的问题,论文通过对商业搜索引擎日志的处理和现场实验的组织,构建了一份真实、规模庞大、质量高的会话搜索基准数据集,为研究提供了充分的数据支持。其次,针对多数会话搜索模块存在的黑盒问题,论文从模型框架设计和训练方式两个方面入手,将人类假设和先验知识融入模型中,提升了系统性能的同时增强了模块的可解释性和鲁棒性。此外,为了深入理解用户在搜索过程中的行为模式,论文利用真实数据进行了分析,并提出了基于商业搜索引擎日志和现场实验的研究方法,为用户会话搜索行为的深入研究提供了基础。最后,针对会话级别用户意图理解与建模的问题,论文利用循环神经网络和自注意力机制来编码会话内序列化信息,并引入跨会话上下文信息,取得了较优的性能,在多个会话搜索子任务上都取得了显著的进展。这些解决方案为解决会话搜索任务的复杂性和挑战提供了有效的途径。具体研究整体路线如图1所示

图1 研究思路

这篇论文针对深度模型的黑盒特性、缺乏会话搜索数据集、模上下文表示与性能优化等方向作为研究重点,提出了三项具体的解决方案和相应理论成果:

1) 面向单轮搜索的预训练语言模型构建:该工作为已有排序模型设计面向检索的预训练目标,旨在优化会话搜索系统在单查询文档排序任务上的性能。基于对检索公理的深入调研,论文提出了一种创新的基于检索公理正则化的预训练方法,称为ARES。ARES 预训练框架如图2所示。ARES使用了一种基于检索公理的预训练方法,通过在语料库中的每个文档上采样一组伪查询,并使用构造的三元组数据集来训练基于公理的偏好预测决策树模型。这种方法的预训练阶段更易于解释,并且适用于缺乏下游任务监督样本的情况。论文总结了九条自适应性的公理或启发式规则,并按属性对它们进行了分组,以便在预训练过程中应用这些公理。

图2 ARES 预训练框架

2) 用户查询重构⾏为分析与满意度建模:该工作旨在深入研究用户的细粒度查询重构行为模式,并基于特定的上下文因素提升满意度建模准确性。通过一个长期的现场研究实验,收集了用户的日常搜索活动和细粒度查询重构行为信息,这是已知的第一个研究用户多方面查询重构行为的工作。收集到的数据集支持对用户查询重构行为进行更深入的调查。深入分析了在不同意图分类下用户查询重构行为的趋势分布,为复杂的用户查询重构行为模式提供了新的见解,并指导设计更好的查询推荐技术。为了帮助用户高效地进行会话搜索,论文针对搜索引擎交互式功能的设计提供了一定的指导建议。进一步地,论文尝试在已有满意度模型中引入查询重构行为作为用户意图的代理信号,提出了新的评价指标族。该指标族能更准确地估计用户感知的搜索满意度,有利于正确优化会话搜索系统性能。图3和图4分别显示了各种长度会话中用户的语义和意图级别查询重构类型的变化趋势。

图3 在各种长度的会话中用户的语义级别查询重构类型的变化趋势

图4 在各种长度的会话中用户的意图级别查询重构类型的变化趋势

3) 基于上下⽂信息优化的会话搜索系统:该工作旨在利用多方面上下文因素提升会话搜索系统中各个模块的性能,包括文档排序、查询推荐以及点击预测等任务。针对学术界缺乏高质量会话搜索数据集的问题,研究人员基于真实的搜索日志提炼了一份大规模的会话数据集,为该任务提供评测基准。发布了一个全新的大规模、高质量的会话搜索数据集TianGong-ST,促进了该领域的研究和发展。提出了基于会话上下文信息的点击模型CACM,实验结果表明其在点击预测和相关性估计任务上性能良好。引入了考虑混合上下文信息的会话搜索模型HSCM,实现了文档排序和查询推荐的统一任务处理,并在公开数据集上取得了优异的性能。CACM 模型的整体框架如图5所示:

图5 CACM 模型的整体框架

三、结论

论文提出了一种综合性的会话搜索框架,旨在应对会话搜索领域的多项挑战。该框架不仅结合了文档排序、查询推荐和点击预测等多个任务,还考虑了用户在复杂搜索环境下的交互行为模式和信息需求的多样性。实验结果表明,该框架在多个任务上都取得了显著的性能提升,优于传统模型,并且在实际应用中展现了良好的可解释性和鲁棒性。此外,论文还构建了一个大规模、高质量的会话搜索数据集,为该领域的进一步研究提供了重要基础。综合而言,这项研究为改善用户搜索体验、提升搜索系统性能以及推动会话搜索领域的发展做出了重要贡献。

这项研究提供了基于用户短期行为数据优化会话搜索系统性能的经验性方法和指导。然而,研究存在局限性,如仅考虑了匿名用户的短期交互记录,未涉及个性化因素。未来的研究可以探索更深层次的个性化信息和生成式大模型在多轮交互场景下的应用,以提升搜索系统性能和用户体验。

四、作者介绍

陈佳,清华大学的工学博士毕业生,研究方向包括信息检索、互联网搜索技术以及自然语言处理等。如表1所示,在她的博士学业生涯中,陈佳发表了多篇学术论文,赢得了业界和学术界的认可。她的研究成果展现了出色的学术深度和应用广度,成为她获得CCF优秀博士学位论文奖项的坚实基础。

表1 博士生涯成果表

成果类型

成果

评级

学术论文

 

 

Axiomatically Regularized Pre-training for Ad hocSearch

CCF A 类

Incorporating  Query Reformulating Behavior into Web Search Evaluation

CCF B 类

A Hybrid Framework for Session Context Modeling

CCF A 类

Towards a Better  Understanding of Query Reformulation Behavior in Web Search

CCF A 类

A Context-Aware Click Model for Web Search

CCF A 类

TianGong-ST: A New Dataset with Large-scale Refined Real-world Web  Search Sessions

CCF B 类

Beyond Sessions: Exploiting Hybrid Contextual Information for Web Search.

CCF B 类

Pre-training Methods in Information Retrieval

Foundations and Trends in Information Retrieval

Overview of the NTCIR-16 Session Search (SS) Task

NTCIR

Improving Session Search Performance with a  Multi-MDP Model

AIRS 18

Improving Search Snippets in Context-aware Web Search Scenarios

CCIR 20

Investigating Query Reformulation Behavior of Search  Users

CCIR 19

五、指导老师——刘奕群教授简介

刘奕群,清华大学计算机科学与技术系教授,研究领域包括信息检索、互联网搜索技术、自然语言处理等。刘教授在学术界担任着重要职务,包括知名国际期刊Foundations and Trends in Information Retrieval的主编以及信息检索领域重要会议ACM SIGIR 2018的程序委员会主席。他曾获得多项荣誉和奖励,如科技部科技创新领军人才、北京市科学技术一等奖(第一完成人)、北京智源学者、钱伟长中文信息处理青年创新一等奖等。此外,他还作为项目负责人获得了国家重点研发计划、国家自然科学基金委优秀青年基金和重点基金的支持。

  • 10
    点赞
  • 26
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值