Facebook向量召回双塔模型

最新推荐文章于 2024-06-14 11:14:58 发布

炼丹笔记

最新推荐文章于 2024-06-14 11:14:58 发布

阅读量443

点赞数

文章标签：算法大数据 python 机器学习人工智能

本文链接：https://blog.csdn.net/m0_52122378/article/details/117555659

版权

本文深入解读Facebook的向量召回双塔模型，探讨召回系统的结构、评价指标、训练数据构造、负样本策略以及特征融合等方面，分享如何解决召回问题并优化模型性能。

摘要由CSDN通过智能技术生成

不知道多少人还记得《做向量召回 All You Need is 双塔》那篇，那篇介绍了国内外各个大厂做召回的用的双塔模型，其中提到一篇《Embeding-based Retrieval in FaceBook Search》，还跟大家强烈建议，该篇必读，不知道有多少炼丹师认真读了？什么？你还没读！没关系，十方今天就给大家解读这篇论文。

很多炼丹师往往迷恋于各种复杂的网络结构，比如某市值跌了几个“百”的大厂，每年都有各种花里胡哨的论文，这些结构有用吗？既然能发论文肯定有用（手动滑稽）。为什么十方在众多论文中强推"脸书"这篇呢？先给大家看下脸书的"双塔"。

看完结构后，会不会有点劝退，什么！十方你就给我看这个，普普通通的双塔？Attention呢？Bert呢？FM呢？RNN呢？没错，这篇论文的精髓，不是网络结构，而是你在做召回时会遇到的方方面面的问题，以及解决方案，十方给大家慢慢揭晓。

对于一个搜索引擎而言，往往由两个层构成，一个叫召回层，另一个叫排序层。召回层的目的就是在低延时，低资源利用的情况下，召回相关的documents。排序层就是通过很复杂的算法(网络结构)把和query最相关的document排序到前面。论文的题目，简单直白的告诉了大家，用embeding 表示query和document来做召回。

论文提到，召回的难点，主要体现在候选集合非常庞大，处理亿级别的documents都是正常操作。不同于面部识别召回，搜索引擎的召回需要合并字面召回和向量召回两种结果。"脸书"的召回，还有其他难点，"人"的特征，在"脸书"的搜索尤其重要。

先膜拜下"脸书"的召回系统：

我们可以清楚的看到几个大模块。

Query处理
索引模块
召回模块
排序模块

最低0.47元/天解锁文章

炼丹笔记

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Facebook向量召回双塔模型

不知道多少人还记得《做向量召回 All You Need is 双塔》那篇，那篇介绍了国内外各个大厂做召回的用的双塔模型，其中提到一篇《Embeding-based Retrieval in FaceBook Search》，还跟大家强烈建议，该篇必读，不知道有多少炼丹师认真读了？什么？你还没读！没关系，十方今天就给大家解读这篇论文。很多炼丹师往往迷恋于各种复杂的网络结构，比如某市值跌了几个“百...
复制链接

扫一扫