Learning to Rank for IR

1.信息检索的评价指标

1.1MAP平均准确率,一个query对应的准确率为AP,所有query对应的平均准确率为MAP。MAP反映系统在全部相关文档上性能的单值指标,系统检索出的相关文档越靠前,MAP就越高。

1.2NDCG

https://www.cnblogs.com/eyeszjwang/articles/2368087.html

 

2.Learning to rank介绍

 从使用的数据类型,以及相关的机器学习技术的观点来看,互联网搜索经历了三代的发展历程。
       第一代技术,将互联网网页看作文本,主要采用传统信息检索的方法。
       第二代技术,利用互联网的超文本结构,有效地计算网页的相关度与重要度,代表的算法有 PageRank 等。
       第三代技术,有效利用日志数据与统计学习方法,使网页相关度与重要度计算的精度有了进一步的提升,代表的方法包括排序学习、网页重要度学习、匹配学习、话题模型学习、查询语句转化学习。
       这里主要介绍机器学习排序。

 

机器学习排序分两种:文档重要度排序,文档相关性排序。

      用来对査询和文档的相关性进行排序,所考虑的因素并不多,主要是利用词频、逆文档频率和文档长度这几个因子来人工拟合排序公式。因为考虑因素不多,由人工进行公式拟合是完全可行的,此时机器学习并不能派上很大用场,因为机器学习更适合采用很多特征来进行公式拟合,此时若指望人工将几十种考虑因素拟合出排序公式是不太现实的,而机器学习做这种类型的工作则非常合适。随着搜索引擎的发展,对于某个网页进行排序需要考虑的因素越来越多,比如网页的pageRank值、查询和文档匹配的单词个数、网页URL链接地址长度等都对网页排名产生影响,Google目前的网页排序公式考虑200多种因子,此时机器学习的作用即可发挥出来,这是原因之一。

       机器学习排序原理:

    

机器学习排序系统由4个步骤组成:人工标注训练数据、文档特征抽取、学习分类函数、在实际搜索系统中采用机器学习模型。

 首先,由人工标注训练数据。也就是说,对于某个查询Q,人工标出哪些文档是和这个査询相关的,同时标出相关程度,相关程度有时候可以用数值序列来表示,比如从1分到5分为3个档次,1代表微弱相关,5代表最相关,其他数值代表相关性在两者之间。对于某个查询,可能相关文档众多,同时用户査询也五花八门,所以全部靠人工标注有时候 不太可能。此时,可以利用用户点击记录来模拟这种人工打分机制。
      对于机器学习来说,输入是用户查询和一系列标注好的文档,机器学习系统需要学习打分函数,然后按照打分函数输出搜索结果,但是在其内部,每个文档由若干特征构成的,即每个文档进入机器学习系统之前,首先需要将其转换我饿滴特征向量,比较常用的特征包括:
      ·查询词在文档中的词频信息 
      ·查询词的IDF信息
      ·文档长度
      ·网页的入链数量
      ·网页的出链数量
      ·网页的pageRank值
      ·网页的URL松度
      ·査询词的Proximity值:即在文档中多大的窗口内可以出现所有査询词。

       以上所列只是影响排序的一部分特征,实际上还有很多类似的特征可以作为特征向量中的一维加入。在确定了特征数量后,即可将文档转換为特征向量X,前面说过每个文档会人工标出其相关性得分y。这样每个文档会转換为<X,Y>的形式,即特征向量及其对应的相关性得分,这样就形成了一个具体的训练实例。

       通过多个调练实例,就可以采用机器学习技术来对系统进行训练,训练的结果往在是一个分类函数或者回归函数,在之后的用户搜索中,就可以用这个分类函数对文档进行打分,形成搜索结果。

机器学习的排序方法分为以下三种:

单文档方法(Pointwise)、文档对方法(Pairwise)、文档列表方法(Listwise)

        Ranking学习作为机器学习研究的一个新方向,在信息检索、协同滤波、专家发现等领域广泛应用。Ranking学习是指通过使用机器学习技术和有标签的数据来产生一个ranking模型,它是一种新的学习,一种介于分类和回归之间的学习。
       Pointwise和Pairwise把排序问题转换成 回归 、分类或有序分类问题。Listwise把Query下整个搜索结果作为一个训练的实例。3种方法的区别主要体现在损失函数(Loss Function)上:
       •Regression: treat relevance degree as real values
       •Classification: treat relevance degree as categories
       •Pairwise classification: reduce ranking to classifying the order between each pair of documents.

 

https://www.cnblogs.com/baiting/p/5786026.html

Ranking 模型可以粗略分为基于相关度和基于重要性进行排序的两大类。 
早期基于相关度的模型,通常利用 query 和 doc 之间的词共现特性(如布尔模型)、VSM(如 TFIDF、LSI 等)、概率排序思想(BM25、LMIR 等)等方式。 
基于重要性的模型,利用的是 doc 本身的重要性,如 PageRank、TrustRank 等。 
这里我们关注基于相关度的 ranking。

learning to rank框架

https://blog.csdn.net/lipengcn/article/details/80373744

LTR获取数据的方式:

训练数据的获取4 特征抽取

模型训练的方法

http://www.cnblogs.com/wentingtu/archive/2012/03/13/2393993.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值