闲鱼搜索召回升级：向量召回&个性化召回

闲鱼技术

于 2022-01-29 14:11:40 发布

阅读量3.3k

点赞数 1

文章标签：大数据 python 机器学习人工智能深度学习

本文链接：https://blog.csdn.net/weixin_38912070/article/details/122749470

版权

闲鱼搜索召回系统通过增加语义向量召回和基于行为的I2I召回，提升搜索相关性和成交效率。语义向量召回利用DSSM模型和预训练的Electra-Small模型增强Query和商品的语义匹配，而行为I2I召回通过Q2I2I策略找到个性化相关商品。尽管相关性控制和资源消耗是挑战，但实验显示召回优化带来了人均买卖家和成单的显著提升。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在搜索系统中，召回环节位于排序漏斗的最底层，决定了下游排序的空间大小，其重要程度毋庸置疑，在闲鱼搜索场景亦是如此。然而由于机器和人力资源的限制，长期以来闲鱼搜索的召回都是使用最简单的基于文本的召回方式，其优化迭代方式也只是在基础商品字段（标题、描述）之上，增加扩展字段。基于此，季度优化前，闲鱼主搜的召回整体方案如下：

Query侧：通过Query改写，扩展Query语义，缓解用户侧搜索词表达不充分的问题，间接实现扩召回；
Item侧：通过增加扩展字段，强化商品侧的表征，具体的拓展字段包括：

- 结构化信息，如类目、算法识别的CPV（属性值，如商品品牌、型号、颜色等）；
- 商品图像识别的标签，如OCR识别出的商品图片中的描述字段；
- I2I商品信息迁移：通过swing等I2I技术，引入与trigger商品相似商品的基础信息作为文本召回字段；
- 同款、一键转卖商品信息迁移，同I2I，只不过扩展信息通过确定的关联商品得到；
- 其他商品预测Tag拓展；

虽然通过如上扩充索引字段的方式，有效提升了搜索的召回能力。但数据分析发现，召回不足的情况仍有较大的搜索PV占比，说明召回侧还有比较大的空间可挖（具体数据这里不做详细罗列）。而优化召回不足大体可以从两个方向发力：1）算法策略层面进行优化，提升召回能力；2）供给层面优化，引导增加商品供给，或使卖家优化商品供给描述。这里则讨论前者，首先是当前系统主要有以下不足之处：

Query召回商品仍然使用纯文本方式召回，Term命中规则严格，缺少语义匹配能力。
当前召回个性化能力不足，或者说没有兼顾效率特征，召回截断后可能损失更具个性化的相关商品。

对于1，本季度我们增加基于语义的向量召回，缓解召回语义能力不足的问题；对于2则有很多思路，如考虑成交效率的向量召回、u2i、u2i2i等，这里做了一些尝试，发现有时常规的方案无法直接照搬到闲鱼场景，而最终本次优化我们优先采用了基于行为的I2I（准确说是Q2I2I），同时为了弥补长尾query召回仍然不足的问题，我们补充了基于多模态内容的I2I，从文本和视觉维度召回相关商品。

对于上述扩召回的候选，我们使用类目、核心词、语义相关性等维度保证相关性，召回升级后整体模块构成如下：

后面的章节，将依次分模块进行详细方案的介绍。

语义向量召回

建模目标

搜索向量召回的最理想结果是尽可能检索出“相关且高成交效率”的商品。由于闲鱼搜索之前没有向量召回链路，因此一期我们决定先从“相关性”目标出发，设计基于纯语义的向量召回，目的是弥补文本召回语义泛化能力弱的问题。其难点主要为闲鱼场景特色下Query和商品的语义表征建模，以及线上机制策略的兼容；而对于“成交效率”目标的兼顾，本季度也做了相应的实验，但是由于闲鱼场景的特殊性，暂时无法直接照搬常规方法，需要进一步探索，这点在本章结尾进行讨论。

模型设计

闲鱼搜索的语义向量模型同大多数的场景一样，使用DSSM架构，Baseline Encoder为预训练的Electra-Small模型（相对于Bert-base效果微跌，但模型大小由300M+缩小到47M，提升了运行效率）。为了丰富Query语义，弥补Query表达不充分的问题，我们增加了临近Query表征（基于行为的Q2Q），与集团ICBU、淘宝主搜通过多任务方式引入不同，这里直接增加Query和临近Query的self-attention模块，通过更为直接的融入信息，避免了多任务调餐的工作量及其不确定性。

对于无临近Query的Key Query，进行置空操作，此外对于有临近Query的Sample也会以一定几率置空，以适应新Query与超长尾Query缺少Q2Q的问题。

模型架构如下：