通俗讲解【布尔召回和向量化召回】

后台架构小C

已于 2024-03-28 16:48:05 修改

阅读量1k

点赞数 13

文章标签：搜索引擎推荐算法架构算法

于 2024-03-28 16:23:54 首次发布

本文链接：https://blog.csdn.net/u012260865/article/details/137115641

版权

本文探讨了搜索推荐引擎的复杂性，重点比较了布尔召回和向量化召回技术。布尔召回依赖于倒排索引和布尔运算，而向量化召回则是通过深度学习捕捉用户与物料的潜在关系。两者各有优缺点，影响着搜索推荐的准确性和效率。

摘要由CSDN通过智能技术生成

搜索推荐引擎基本上算得上是当前互联网技术领域的天花板了，是互联网技术挑战和难度较大的领域之一。这主要源于以下几个方面的原因：

数据规模与复杂性：搜索推荐引擎需要处理海量的数据，包括用户行为数据、内容数据等。这些数据不仅数量庞大，而且结构复杂，需要高效的数据处理和存储技术来支撑。
算法与模型的复杂性：搜索推荐引擎的核心在于其算法和模型。为了更准确地理解用户需求和兴趣，需要提供个性化的搜索和推荐结果，需要运用复杂的机器学习、深度学习等技术来训练和优化模型。这不仅要求算法工程师具备深厚的理论知识，还需要具备丰富的实践经验。
实时性与准确性要求：搜索推荐引擎需要实时响应用户的请求，并在短时间内提供准确的结果。这对系统的实时性能和准确性提出了很高的要求，需要不断优化系统的架构和算法，以提高响应速度和推荐准确性。
用户行为的多样性与变化性：用户的搜索和推荐行为具有多样性和变化性，不同用户有不同的需求和偏好。搜索推荐引擎需要不断学习和适应这些变化，以提供更符合用户期望的结果。这要求系统具备强大的自适应能力和学习能力。

其中，召回技术算的上是搜索推荐的核心环节，主要有布尔召回、向量化召回、文本召回、KV索引召回等几种，本文主要来对比最常见的布尔召回和向量化召回。

1.布尔召回：

布尔召回通常基于树、维度bitMap分组和哈希表等技术实现。
广告主可以设置定向组合，如访问特定网站的人群或有特定兴趣的人群等。
布尔召回的本质是基于倒排索引的布尔运算，通过构建多层索引来快速找到与用户标签匹配的定向组合广告。

布尔召回是广告召回中常用的一种策略，布尔召回之所以得名，是因为它基于布尔运算进行数据的筛选和匹配。布尔运算包括逻辑与（AND）、逻辑或（OR）和逻辑非（NOT）等基本操作，通过这些操作可以组合出复杂的查询条件。它基于倒排索引和布尔运算来实现。在广告系统中，倒排索引起着至关重要的作用。当接收到一个广告请求时，系统会根据请求中的定向信息（如用户标签、场景上下文等）从倒排索引中匹配合适的广告。

布尔召回的本质是基于这些定向信息的布尔运算。具体来说，它首先会将广告主的投放配置进行分解分组，每一个组为一个conjunction（联结），一个广告投放会对应多个conjunction。然后，系统会根据用户标签找到对应的conjunction，并基于每个conjunction取出对应的广告主集合。最后，计算这些集合的交并运算，得到最终召回的广告候选集。

这种方法的优点在于能够基于复杂的定向条件进行广告筛选，提高了召回的准确性和效率。但是，它也可能因为过于严格的筛选条件而导致召回不足的问题。

2.向量化召回：

向量化召回是基于“向量空间模型”的概念，将文本、图片、视频等非结构化数据转换为结构化的数值向量。
通过计算这些向量之间的相似度，可以识别出与给定查询最相关的项目。
向量化通常通过深度学习模型实现，如词嵌入（Word Embedding）或BERT等模型。
向量召回的核心思想是将用户特征和物料特征全部用向量来表示，然后基于向量来计算用户与物料的相似度、用户与用户的相似度、物料与物料的相似度。

向量化召回则是一种基于深度学习和向量相似度计算的召回方法。

向量化召回之所以得名，是因为其核心思想是将用户特征和物料特征全部用向量来表示，然后基于这些向量来计算用户与物料的相似度、用户与用户的相似度以及物料与物料的相似度。这种方法的基础是“向量空间模型”（Vector Space Model，VSM），它将文本或任何形式的项目转换为向量，这些向量在高维空间中表示。通过计算这些向量之间的相似度，可以识别出与给定查询最相关的项目。

它的核心思想是将用户特征和物料特征全部用向量来表示，然后基于这些向量来计算用户与物料的相似度。

在向量化召回中，首先将文本、图片、视频等非结构化数据转换为结构化的数值向量。这通常通过深度学习模型实现，如词嵌入（Word Embedding）或BERT等模型。然后，系统计算用户向量和物料向量之间的相似度，找出与用户兴趣最相似的物料。

向量化召回的优点在于能够捕捉用户和物料之间的潜在关系，提高了召回的准确性和多样性。同时，由于向量计算的高效性，它也能够在大规模数据集中快速找到与用户兴趣相似的物料。

然而，向量化召回也存在一些挑战。首先，它需要大量的训练数据来训练深度学习模型，以生成准确的向量表示。其次，对于某些复杂的特征或关系，向量表示可能无法完全捕捉，导致召回效果不佳。

后台架构小C

关注

13
点赞
踩
15

收藏

觉得还不错? 一键收藏
0
评论
通俗讲解【布尔召回和向量化召回】

向量化召回之所以得名，是因为其核心思想是将用户特征和物料特征全部用向量来表示，然后基于这些向量来计算用户与物料的相似度、用户与用户的相似度以及物料与物料的相似度。这对系统的实时性能和准确性提出了很高的要求，需要不断优化系统的架构和算法，以提高响应速度和推荐准确性。向量化召回的优点在于能够捕捉用户和物料之间的潜在关系，提高了召回的准确性和多样性。其中，召回技术算的上是搜索推荐的核心环节，主要有布尔召回、向量化召回、文本召回、KV索引召回等几种，本文主要来对比最常见的布尔召回和向量化召回。
复制链接

扫一扫