1.概述
对于搜索任务来说,系统接收到用户查询之后,返回相关文档列表。所以问题的关键是确定文档之间的先后顺序,而pairwise则将重点转向对文档关系是否合理的判断。
在pairwise中,排序算法通常转化为对文档对的分类,分类输入是文档对,结果是哪个文章的相关度更好,学习的目标是减少错误分类的文档对,在完美的模型中,所有的文档对的顺序都被正确分类,于是可以得到某一query下完全正确合理的文档列表,即为完美的排序。
图1 l2r-pairwise
在pairwise方法下,不同算法的最大不同之处在于对应机器学习方法的不同。对现有的大部分pairwise方法进行整理后发现,总结出以下4类:
(1)基于SVM算法的:基于SVM的pairwise算法最早的一种为R.Herbrich等人于2000年提出的Ranking SVM算法;后续基于此算法进行改进的有MHR(Multiple Hyperplanes Rank),该方法使用分而治之的策略,使用多个超平面对实例进行排序,最后聚合超平面给出的排序结果;IRSVM则是针对Ranking SVM中的位值误差和长度误差两大缺陷进行了改进。
(2)基于Boost类:基于Boost的pairwise算法最早的一种为Yoav Freund等人于2003年提出的