通俗讲解【布尔召回和向量化召回】

本文探讨了搜索推荐引擎的复杂性,重点比较了布尔召回和向量化召回技术。布尔召回依赖于倒排索引和布尔运算,而向量化召回则是通过深度学习捕捉用户与物料的潜在关系。两者各有优缺点,影响着搜索推荐的准确性和效率。
摘要由CSDN通过智能技术生成

搜索推荐引擎基本上算得上是当前互联网技术领域的天花板了,是互联网技术挑战和难度较大的领域之一。这主要源于以下几个方面的原因:

  1. 数据规模与复杂性:搜索推荐引擎需要处理海量的数据,包括用户行为数据、内容数据等。这些数据不仅数量庞大,而且结构复杂,需要高效的数据处理和存储技术来支撑。

  2. 算法与模型的复杂性:搜索推荐引擎的核心在于其算法和模型。为了更准确地理解用户需求和兴趣,需要提供个性化的搜索和推荐结果,需要运用复杂的机器学习、深度学习等技术来训练和优化模型。这不仅要求算法工程师具备深厚的理论知识,还需要具备丰富的实践经验。

  3. 实时性与准确性要求:搜索推荐引擎需要实时响应用户的请求,并在短时间内提供准确的结果。这对系统的实时性能和准确性提出了很高的要求,需要不断优化系统的架构和算法,以提高响应速度和推荐准确性。

  4. 用户行为的多样性与变化性:用户的搜索和推荐行为具有多样性和变化性,不同用户有不同的需求和偏好。搜索推荐引擎需要不断学习和适应这些变化,以提供更符合用户期望的结果。这要求系统具备强大的自适应能力和学习能力。

其中,召回技术算的上是搜索推荐的核心环节,主要有布尔召回、向量化召回、文本召回、KV索引召回等几种,本文主要来对比最常见的布尔召回和向量化召回。

1.布尔召回:

  • 布尔召回通常基于树、维度bitMap分组和哈希表等技术实现。
  • 广告主可以设置定向组合,如访问特定网站的人群或有特定兴趣的人群等。
  • 布尔召回的本质是基于倒排索引的布尔运算,通过构建多层索引来快速找到与用户标签匹配的定向组合广告。

布尔召回是广告召回中常用的一种策略,布尔召回之所以得名,是因为它基于布尔运算进行数据的筛选和匹配。布尔运算包括逻辑与(AND)、逻辑或(OR)和逻辑非(NOT)等基本操作,通过这些操作可以组合出复杂的查询条件。它基于倒排索引和布尔运算来实现。在广告系统中,倒排索引起着至关重要的作用。当接收到一个广告请求时,系统会根据请求中的定向信息(如用户标签、场景上下文等)从倒排索引中匹配合适的广告。

布尔召回的本质是基于这些定向信息的布尔运算。具体来说,它首先会将广告主的投放配置进行分解分组,每一个组为一个conjunction(联结),一个广告投放会对应多个conjunction。然后,系统会根据用户标签找到对应的conjunction,并基于每个conjunction取出对应的广告主集合。最后,计算这些集合的交并运算,得到最终召回的广告候选集。

这种方法的优点在于能够基于复杂的定向条件进行广告筛选,提高了召回的准确性和效率。但是,它也可能因为过于严格的筛选条件而导致召回不足的问题。

2.向量化召回:

  • 向量化召回是基于“向量空间模型”的概念,将文本、图片、视频等非结构化数据转换为结构化的数值向量。
  • 通过计算这些向量之间的相似度,可以识别出与给定查询最相关的项目。
  • 向量化通常通过深度学习模型实现,如词嵌入(Word Embedding)或BERT等模型。
  • 向量召回的核心思想是将用户特征和物料特征全部用向量来表示,然后基于向量来计算用户与物料的相似度、用户与用户的相似度、物料与物料的相似度。

向量化召回则是一种基于深度学习和向量相似度计算的召回方法。

向量化召回之所以得名,是因为其核心思想是将用户特征和物料特征全部用向量来表示,然后基于这些向量来计算用户与物料的相似度、用户与用户的相似度以及物料与物料的相似度。这种方法的基础是“向量空间模型”(Vector Space Model,VSM),它将文本或任何形式的项目转换为向量,这些向量在高维空间中表示。通过计算这些向量之间的相似度,可以识别出与给定查询最相关的项目。

它的核心思想是将用户特征和物料特征全部用向量来表示,然后基于这些向量来计算用户与物料的相似度。

在向量化召回中,首先将文本、图片、视频等非结构化数据转换为结构化的数值向量。这通常通过深度学习模型实现,如词嵌入(Word Embedding)或BERT等模型。然后,系统计算用户向量和物料向量之间的相似度,找出与用户兴趣最相似的物料。

向量化召回的优点在于能够捕捉用户和物料之间的潜在关系,提高了召回的准确性和多样性。同时,由于向量计算的高效性,它也能够在大规模数据集中快速找到与用户兴趣相似的物料。

然而,向量化召回也存在一些挑战。首先,它需要大量的训练数据来训练深度学习模型,以生成准确的向量表示。其次,对于某些复杂的特征或关系,向量表示可能无法完全捕捉,导致召回效果不佳。

  • 13
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值