信息检索(IR)—排序学习技术

信息检索(IR)—排序学习技术

1 引入

回顾搜索引擎的发展历史,其发展的过程如下图所示:

在这里插入图片描述
在之前的文章中,我们介绍了基于链接分析的搜索引擎,下面我们来介绍基于排序学习的搜索引擎中的排序学习技术。

1.1 基本概念和基本过程

排序学习是指应用有监督学习的机制训练排序模型来用于信息的表示。 其基本的过程如下图所示:

在这里插入图片描述

1.2 排序学习的基本分类
  1. Pointwise单文档方法:用类别号表示排序的相关度。
  2. Pairwise排序学习:将排序问题表示成两两文档之间的偏序关系。
  3. Listwise文档列表方法:将一个查询对应的所有搜索结果列表作为一个训练实例。

2 排序算法简述

2.1 Pointwise

Pointwise处理对象是单一的文档,将文档转换成特征向量之后,主要是将排序问题转换成机器学习常规的分类或者回归问题。如下图所示:

在这里插入图片描述
根据上图所示,我们可以将Pointwise抽象成一个多分类排序问题(McRank),排序函数通过多分类分类模型学习得到,对于一个文档 x j x_j xj,分类器输出文档的相关性标签 y p j y_{pj} ypj,排序值等于分类器的输出结果的合并。
p j , k = P ( y p j = k ) , f ( x j ) = ∑ k = 1 K p j , k k p_{j,k}=P(y_{pj}=k),f(x_j)=∑_{k=1}^Kp_{j,k}k pj,k=P(ypj=k)f(xj)=k=1Kpj,kk

2.2 Pointwise实例

在这里插入图片描述

2.3 Pointwise的局限性

Pointwise完全从单文档的分类角度计算,没有考虑文档之间的相对顺序。假设相关度是查询无关的,只要(query,di)的相关度相同,那么他们就被划分到一个级别中,属于同一类。这样就导致训练样本的不一致,并且对于预测为同一label级别的文档之间也无法相对排序。

2.4 Pairwise排序学习

Pairwise主要将排序问题转为了文档对顺序的判断,如下图所示:

在这里插入图片描述

2.5 Ranking SVM

这里我们举一个使用Pairwise的具体算法,Ranking SVM算法。Ranking SVM是一种使用SVM分类器学习两两样本间偏序关系的模型。

在这里插入图片描述

2.6 Pairwise思想的局限性

首先,Pairwise只考虑了两个文档的先后顺序,没有考虑文档出现在搜索列表中的位置。其次,排在前面的文档更为重要,如果出现在前面的文档判断错误,惩罚函数要明显高于排在后面的判断错误。Pairwise也会导致闭环的出现,例如:1>2,2>3,3>1。

与此同时,不同的查询,其相关文档数量的差异很大,转换成文档对之后,有的查询可能有几百对文档,有的可能有几十个。这对学习系统的效果评价带来的偏置。我们举一个例子来说明这种局限性:

在这里插入图片描述

2.7 Listwise排序学习

对于这种策略而言,其训练实例为查询和文档排序的列表,而不是文档对。对于这种策略而言,其重点在于如何定义Listwise的损失函数。

对于排序列表的集合而言,其等价于排列的概率分布,使用概率分布对于排序列表来说,是更加直观并且合理的一种表示:文档的排列和文档检索结果的排序列表一一对应。举个例子来说:

在这里插入图片描述

进一步,我们应该如何定义排序的概率呢?这里我们使用Plackett-Luce模型定义一个排列的概率:

在这里插入图片描述
最后,我们可以定义不同的排序列表之间的距离:这里我们使用KL散度来定义不同排序列表之间的距离:

在这里插入图片描述

3 总结

本文主要讲述的在排序学习中的三种思想,没有讲述具体的算法,有兴趣的读者可以去了解不同策略下的具体算法。

4 参考

  1. 哈工大——信息检索
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
基于深度学习的图像检索技术是一种将卷积神经网络(CNN)应用于图像检索任务的方法。与传统的图像检索方法相比,基于深度学习的方法更加高效准确,可以处理更加复杂的图像数据。 基于深度学习的图像检索技术通常包括以下步骤: 1. 图像数据的预处理:将图像数据进行裁剪、缩放、归一化等处理,以便于后续的卷积神经网络处理。 2. 特征提取:使用卷积神经网络对输入图像进行特征提取,得到每张图像的特征向量。通常会使用预训练好的卷积神经网络,例如 VGG、ResNet、Inception 等,或者从头开始训练自己的卷积神经网络。 3. 相似度计算:使用相似度计算方法,例如余弦相似度、欧几里得距离等,计算查询图像与数据库中每张图像的相似度。 4. 检索结果排序:将相似度从高到低排序,得到最终的检索结果。 基于深度学习的图像检索技术的优点包括: 1. 自动学习特征:卷积神经网络可以自动学习图像的特征,避免了传统方法中需要手动设计特征的过程。 2. 高效准确:基于深度学习的图像检索技术具有更高的准确率和更快的检索速度,可以处理更加复杂的图像数据。 3. 可迁移性强:卷积神经网络具有很强的可迁移性,可以使用预训练好的模型进行迁移学习,适用于不同的图像检索任务。 但是,基于深度学习的图像检索技术也存在一些限制和挑战: 1. 数据量要求高:深度学习需要大量的数据进行训练,因此需要有足够的数据集才能训练出高质量的模型。 2. 计算复杂度高:卷积神经网络需要大量的计算资源进行训练和推理,需要配备相应的硬件设备。 3. 可解释性差:深度学习模型通常被认为是一种黑盒模型,缺乏可解释性,难以理解其内部运行机制。 总之,基于深度学习的图像检索技术是一种非常有前景的技术,随着深度学习的不断发展,它将会在更多的领域得到应用。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值