Query改写召回：策略、问题解决与优势对比

本文链接：https://blog.csdn.net/qq_22866291/article/details/145194662

引言

在信息检索领域，如何高效地召回与用户需求相关的信息至关重要。Query改写召回作为一种重要的技术手段，在提升检索效果方面发挥着关键作用。同时，与在文档（Doc）侧加标签（Tag）的方式相比，Query改写召回也有着独特的优势。

一、Query改写召回的实现方式

基于规则的改写：通过预先设定的规则对用户输入的查询语句（Query）进行改写。其中包括同义词替换，如将“电脑”改写为“计算机”；近义词扩展，像把“美丽”拓展为“漂亮”“秀丽”等；以及缩写与全称的转换，例如“AI”改写为“人工智能”。此外，还涉及句式的调整，比如将“如何学习英语”改写为“学习英语的方法”，以此实现Query的多样化表达。
基于语义理解的改写：借助先进的自然语言处理技术，尤其是预训练语言模型，如BERT、GPT等，深入理解Query的语义内涵。在此基础上，生成语义相近但表述不同的改写版本。例如，对于Query“这款手机的拍照效果如何”，经过语义分析后，可能会得到“这款手机拍照性能怎样”这样的改写结果，从而挖掘出用户潜在的真实意图。
基于用户行为数据的改写：对用户的历史搜索行为、点击行为、浏览行为等数据进行细致分析。通过找出与当前Query相似的历史Query及其对应的改写方式，为当前Query提供改写参考。比如，若大量用户在搜索“运动鞋”后，又点击了“跑步鞋”相关的内容，那么当新用户输入“运动鞋”时，系统可将其改写为“运动鞋跑步鞋”或者直接改写为“跑步鞋”，使改写更贴合用户的实际需求。
基于知识图谱的改写：依托知识图谱中丰富的实体和关系信息，对Query进行扩展和改写。当用户输入“牛顿”时，根据知识图谱中牛顿与物理学、万有引力定律等的关系，可将Query改写为“牛顿物理学”“牛顿的万有引力定律”等，从而扩大召回范围，获取更多与牛顿相关的、不同侧重点的信息。

二、Query改写召回主要解决的问题

应对用户表达的多样性：不同用户对于同一事物的表述方式往往存在差异。通过Query改写，能够将用户各种不同的表述统一转化为系统可理解和处理的形式，确保无论用户使用何种表述，都能召回全面的相关信息。例如，有的用户搜索“单车”，有的搜索“自行车”，通过同义词改写，可使两种表述都能召回相关结果。
挖掘用户潜在意图：用户的原始Query可能较为模糊或简短，难以准确反映其真实需求。通过语义理解和知识图谱等方式的改写，可以深入挖掘用户的潜在意图。比如，用户搜索“旅游”，经过改写可能扩展为“国内热门旅游景点”“旅游攻略”等，为用户提供更精准、更符合需求的信息。
提升召回率：当原始Query召回的结果数量较少时，Query改写能够扩大检索范围，增加召回的数量。对于一些生僻的专业术语或用户表述不准确的情况，通过改写为常见的表述方式，可有效召回更多相关文档，提高检索的全面性。

三、Query改写召回相较于在Doc侧加Tag的优势

更高的灵活性：Query改写能够根据不同用户的输入实时生成多种改写版本，快速适应各种复杂的用户查询。而在Doc侧加Tag需要提前对文档进行标注，一旦标注完成，很难快速根据新的需求或用户行为进行调整。当出现新的热门词汇或概念时，Query改写可迅速将其纳入改写范围，而文档的标签可能需要人工重新标注，耗时耗力。
更精准捕捉用户实时意图：Query改写是基于用户当前输入的Query进行动态处理，能够更好地捕捉用户的实时意图。相比之下，Doc侧的标签是固定的，无法根据用户的实时需求进行变化。例如，用户在不同时间搜索“手机”，其意图可能分别是了解新手机发布、购买手机、查看手机评测等，Query改写可以根据用户的上下文和实时需求进行相应改写，而文档标签难以做到如此灵活地匹配用户意图。
降低数据标注成本：在Doc侧加Tag需要耗费大量的人力和时间对每一篇文档进行标注，尤其是在数据量庞大的情况下，标注成本非常高。而Query改写主要依靠算法和模型，虽然前期需要一定的研发和训练成本，但一旦模型建立起来，对于新的Query处理成本较低，不需要对文档进行额外的标注工作，大大节省了资源。
更强的适应性：Query改写可以适应不同领域、不同类型的查询，不需要针对每个领域单独建立复杂的标签体系。而在Doc侧加Tag需要根据不同领域的特点和要求，设计专门的标签体系，并且不同领域之间的标签体系很难通用，适应性较差。