背景
机器学习排序算法(learning to rank)在目前的搜索领域和推荐领域具有广泛的使用。试想以下,无论是你在搜索引擎上点击一下“搜索”,还是你在“头条”上“下拉”刷新下内容,为什么呈现的内容A在内容B的前面?这里就是排序算法在起作用,他认为内容A比内容B更适合你。
主要形式
PointWise
PointWise是使用近似回归的方式来解决排序问题,对你的每次请求结合ITEM的特征,使用模型计算一个得分,根据每个ITEM得分高低来进行排序。这里的ITEM有可能是搜索的一个文档,得分就是相似性;也有可能ITEM是一个商品或者广告,得分就是点击率。
PairWise
PairWise是使用类似分类的问题来解决排序问题,对你的每次请求分别结合一组ITEM对,得到两组特征,使用模型进行二分类,得出类别标签1和0。对所有的待选ITEM两两进行分类计算,就可以得到一组偏序关系,从而得到全局的排序关系。
ListWise
Listwise方法是直接优化排序列表,输入为单条样本为一个文档排列。通过构造合适的度量函数衡量当前文档排序和最优排序差值,优化度量函数得到排序模型。
评价指标
MRR
MRR(Mean Reciprocal Rank),平均倒数排名。
表示第一个相关结果的排序位置,
表示查询的数量。MRR表示搜索系统在查询集Q下的平均倒数排名值。MRR只能度量检索结果只有一个并且相关性等级只有相关和不相关两种的情况。
举例:
三次查询的
MAP
MAP(Mean Average Precision),平均正确率均值。
假定信息需求
对应的所有相关文档集合为
,
是返回结果中直到遇到
及其所在位置前的所有文档的集合。
举例: