Learning to Rank简介

最新推荐文章于 2021-01-24 20:23:58 发布

f9db33t79p

最新推荐文章于 2021-01-24 20:23:58 发布

阅读量200

点赞数 1

本文链接：https://blog.csdn.net/f9db33t79p/article/details/72614611

版权

Learning to Rank是通过机器学习解决排序问题的方法，常见于信息检索、自然语言处理和数据挖掘等领域。它关注的是相对顺序而非绝对预测准确性。训练数据的获取包括人工标注和利用搜索日志，特征生成涉及相关性和热门程度，评估指标有NDCG和MAP。该方法分为pointwise、pairwise和listwise三类，考虑了不同层面的排序信息。

摘要由CSDN通过智能技术生成

Learning to Rank是采用机器学习算法，通过训练模型来解决排序问题，在Information Retrieval，Natural Language Processing，Data Mining等领域有着很多应用。

1. 排序问题

如图 Fig.1 所示，在信息检索中，给定一个query，搜索引擎会召回一系列相关的Documents（通过term匹配，keyword匹配，或者semantic匹配的方法），然后便需要对这些召回的Documents进行排序，最后将Top N的Documents输出。而排序问题就是使用一个模型 f(q,d)来对该query下的documents进行排序，这个模型可以是人工设定一些参数的模型，也可以是用机器学习算法自动训练出来的模型。现在第二种方法越来越流行，尤其在Web Search领域，因为在Web Search 中，有很多信息可以用来确定query-doc pair的相关性，而另一方面，由于大量的搜索日志的存在，可以将用户的点击行为日志作为training data，使得通过机器学习自动得到排序模型成为可能。

需要注意的是，排序问题最关注的是各个Documents之间的相对顺序关系，而不是各个Documents的预测分最准确。

Learning to Rank是监督学习方法，所以会分为training阶段和testing阶段，如图 Fig.2 所示。

1.1 Training data的生成

对于Learning to Rank，training data是必须的，而feature vector通常都是可以得到的，关键就在于label的获取，而这个label实际上反映了query-doc pair的真实相关程度。通常我们有两种方式可以进行label的获取：

第一种方式是人工标注，这种方法被各大搜索引擎公司广为应用。人工标注即对抽样出来作为training data的query-doc pair人为地进行相关程度的判断和标注。一般标注的相关程度分为5档：perfect，excellent，good，fair，bad。例如，query=“Microsoft”，这时候，Microsoft的官网是perfect；介绍Microsoft的wikipedia则是excellent；一篇将Microsoft作为其主要话题的网页则是good；一篇只是提到了Microsoft这个词的网页则是fair，而一篇跟Microsoft毫不相关的网页则是bad。人工标注的方法可以通过多人同时进行，最后以类似投票表决的方式决定一个query-doc pair的相关程度，这样可以相对减少各个人的观点不同带来的误差。

最低0.47元/天解锁文章

f9db33t79p

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Learning to Rank简介

Learning to Rank是采用机器学习算法，通过训练模型来解决排序问题，在Information Retrieval，Natural Language Processing，Data Mining等领域有着很多应用。 1. 排序问题如图 Fig.1 所示，在信息检索中，给定一个query，搜索引擎会召回一系列相关的Documents（通过term匹配，keyword匹配
复制链接

扫一扫