java ranklib_LambdaMART简介——基于Ranklib源码（一 lambda计算）

最新推荐文章于 2021-03-10 10:28:09 发布

鬼斧神工119

最新推荐文章于 2021-03-10 10:28:09 发布

阅读量242

点赞数

文章标签： java ranklib

本文链接：https://blog.csdn.net/weixin_28366353/article/details/114903081

版权

本文详细介绍了Ranklib中LambdaMART的学习过程，包括计算deltaNDCG、lambda值，以及使用lambda训练回归树的步骤。通过对Ranklib V2.1源码的解读，帮助理解LambdaMART模型的实现细节，以便于更好地掌握Learning to Rank的原理。

摘要由CSDN通过智能技术生成

学习Machine Learning，阅读文献，看各种数学公式的推导，其实是一件很枯燥的事情。有的时候即使理解了数学推导过程，也仍然会一知半解，离自己写程序实现，似乎还有一道鸿沟。所幸的是，现在很多主流的Machine Learning方法，网上都有open source的实现，进一步的阅读这些源码，多做一些实验，有助于深入的理解方法。

Ranklib就是一套优秀的Learning to Rank领域的开源实现，其主页在：http://people.cs.umass.edu/~vdang/ranklib.html，从主页中可以看到实现了哪些方法。其中由微软发布的LambdaMART是IR业内常用的Learning to Rank模型，本文介绍RanklibV2.1(当前最新的时RanklibV2.3，应该大同小异)中的LambdaMART实现，用以帮助理解paper中阐述的方法。

LambdaMART.java中的LambdaMART.learn()是学习流程的管控函数，学习过程主要有下面四步构成：

1. 计算deltaNDCG以及lambda;

2. 以lambda作为label训练一棵regression tree;

3. 在tree的每个叶子节点通过预测的regression lambda值还原出gamma，即最终输出得分；

4. 用3的模型预测所有训练集合上的得分(+learningRate*gamma),然后用这个得分对每个query的结果排序，计算新的每个query的base ndcg，以此为基础回到第1步，组成森林。

重复这个步骤，直到满足下列两个收敛条件之一：

1. 树的个数达到训练参数设置；

2. Random Forest在validation集合上没有变好。

下面用一组实际的数据来说明整个计算过程，假设我们有10个query的训练数据，每个query下有10个doc，每个q-d对有10个feature，如下：

1 0 qid:1830 1:0.002736 2:0.000000 3:0.000000 4:0.000000 5:0.002736 6:0.000000 7:0.000000 8:0.000000 9:0.000000 10:0.000000

2 0 qid:1830 1:0.025992 2:0.125000 3:0.000000 4:0.000000 5:0.027360 6:0.000000 7:0.000000 8:0.000000 9:0.000000 10:0.000000

3 0 qid:1830 1:0.001368 2:0.000000 3:0.000000 4:0.000000 5:0.001368 6:0.000000 7:0.000000 8:0.000000 9:0.000000 10:0.000000