R&S[22] | 搜索系统中的召回

最新推荐文章于 2024-07-03 14:40:36 发布

机智的叉烧

最新推荐文章于 2024-07-03 14:40:36 发布

阅读量296

点赞数

本文链接：https://blog.csdn.net/baidu_25854831/article/details/103951779

版权

往期回顾：

前几天浅梦前辈讨论了有关搜索推荐系统的召回，此处结合我的个人经验给大家分享一下，搜索系统中的召回方法吧。内容可能都是以规则和词典模式为主，大家别嫌弃我low了。浅梦前辈的文章如下：

对召回的理解

现在无论是搜索系统还是推荐系统，基本形成了召回+排序的基本结构（当然内部还存在大量过滤逻辑，把一些召回回来的低质东西扔掉），召回的目标在于从海量信息中抽取若干可能可以被展示的信息，而排序则主要负责把更好的内容展示给用户，换言之，正确完整的结构是召回阶段关注召回率，而排序阶段关注准确率，两者结合，最终实现高准确高召回的展示结果。

重申，此时召回的目标在于从海量数据中找到可能可以出的结果，这种情况下，要求的是能找到的东西能尽可能找到，因为召回找不到的东西，是不可能在后面的结果里面出现了。

但值得强调的是，很多系统，尤其是最初刚开始建立的系统，排序其实并不是很完善，而应该是召回，甚至在召回阶段可能就要承担一定的排序压力，此时就需要保证较高程度的准确性了，因此情况还是会有所不同。

召回的操作

对于搜索系统，由于用户有非常明确的用户需求，因此所有操作都应该围绕着这句短短的用户query，但是要理解它的含义，却非常困难的，核心难度还是在于他的短，有的时候会非常模糊。因此和推荐系统不同的是，并非把时间花在用户和ITEM之间的分析上，而是query各个层面的分析。

query的各种分析，其核心原因是，要方便后续在数据库里进行查询，大家可以试想一下，做数据库查询需要知道哪些信息，有了这些信息，我们才能实现真正程度的召回：

哪个库哪个表。
哪些字段。
什么条件。

那么，对于原始query，我们需要做什么处理呢：

预处理。这个在之前的文章里面也说过很多次，繁体简体，大写小写，标点符号，数字等等，不赘述了。
改写。这个是搜索里面比较复杂的操作，后面会展开写，举个例子吧，招商银行和招行。
意图分类。对应是确定哪个库哪个表。
实体识别、term weighting等。对应的是哪个字段。

改写

首先是改写，首先需要明确的是，改写这个操作的目标是，要对应到数据库里面的数据，所谓的模糊搜索，能做到多模糊，其实就体现在你的改写能力好不好了，毕竟，数据库的查询能力是不可能做模糊的。

首先最简单的改写应该是同义词，这个就非常考验数据挖掘的能力了，怎么构建同义词词表，甚至是垂直领域下的数据挖掘能力，是非常关键的，具体怎么挖掘，这个就需要看大家的智慧啦。补充一下，这个同义词挖掘过程一般都是离线过程，在现阶段一般是直接触发词典来做改写的。

前缀匹配、拼音、拼音前缀、纠错。这个是搜索中的常见操作，用户很多时候不见得会输入所有内容甚至会输入错误，我们需要做补全（自动补全这个也有说法叫做query suggestion）。

前缀匹配同样可以通过词典来处理，约束好相似度（例如用编辑距离）即可。“番”直接改成“番禺野生动物园”可就不太合适了。
拼音结合拼音转换加词典的方式做改写就行，当然太简单也会有一些bad case，需要慢慢来补充迭代吧。
拼音前缀，hdl出海底捞，bd出百度，类似这种，也是可以通过构造实体词典的方式去做。

其他必要的改写，这个就要根据实际业务去做了，举个例子吧，搜索中有一种召回方式是从redis中做召回，这种方式的难度在于当且仅当只有精确匹配才能够找到结果，数据库里面可能没有钢铁侠，只有钢铁侠1，钢铁侠2，钢铁侠3，此时用户输入钢铁侠的时候是不会出结果的，我们需要设置同义词，这种同义词就不是我们常说意义的同义词，这个就需要结合一些规则去做针对性的操作。

其次，应该就是要上一些比较复杂的模型了，不过因为使用的方式是在线，所以再复杂也不会这么复杂。模型实质上也是去找相似的内容，说到相似、近义词，大家应该想到词向量的最近邻相似了，将某个词汇通过word2vector的方法转为向量，然后找到最接近的几个词（一般用相似度或者个数来截断），就能作为改写词。值得注意的是，如果上述方案已经能覆盖较多结果了，其实并没有太高的优先级，模型常伴有一定的不稳定性，说不定哪天就有一些bad case出现，这种case又不好处理。