LambdaMART简介——基于Ranklib源码(二 Regression Tree训练)

转载 2016年06月01日 18:04:35

LambdaMART简介——基于Ranklib源码(二 Regression Tree训练)

上一节中介绍了 λ λ 的计算,lambdaMART就以计算的每个doc的 λ λ 值作为label,训练Regression Tree,并在最后对叶子节点上的样本 lambda lambda 均值还原成 γ γ ,乘以learningRate加到此前的Regression Trees上,更新score,重新对query下的doc按score排序,再次计算deltaNDCG以及 λ λ ,如此迭代下去直至树的数目达到参数设定或者在validation集上不再持续变好(一般实践来说不在模型训练时设置validation集合,因为validation集合一般比训练集合小很多,很容易收敛,达不到效果,不如训练时一步到位,然后另起test集合做结果评估)。

 

其实Regression Tree的训练很简单,最主要的就是决定如何分裂节点。lambdaMART采用最朴素的最小二乘法,也就是最小化平方误差和来分裂节点:即对于某个选定的feature,选定一个值val,所有<=val的样本分到左子节点,>val的分到右子节点。然后分别对左右两个节点计算平方误差和,并加在一起作为这次分裂的代价。遍历所有feature以及所有可能的分裂点val(每个feature按值排序,每个不同的值都是可能的分裂点),在这些分裂中找到代价最小的。

举个栗子,假设样本只有上一节中计算出 λ λ 的那10个:

复制代码
 1 qId=1830 features and lambdas
 2 qId=1830    1:0.003 2:0.000 3:0.000 4:0.000 5:0.003 6:0.000 7:0.000 8:0.000 9:0.000 10:0.000    lambda(1):-0.495
 3 qId=1830    1:0.026 2:0.125 3:0.000 4:0.000 5:0.027 6:0.000 7:0.000 8:0.000 9:0.000 10:0.000    lambda(2):-0.206
 4 qId=1830    1:0.001 2:0.000 3:0.000 4:0.000 5:0.001 6:0.000 7:0.000 8:0.000 9:0.000 10:0.000    lambda(3):-0.104
 5 qId=1830    1:0.189 2:0.375 3:0.333 4:1.000 5:0.196 6:0.000 7:0.000 8:0.000 9:0.000 10:0.000    lambda(4):0.231
 6 qId=1830    1:0.078 2:0.500 3:0.667 4:0.000 5:0.086 6:0.000 7:0.000 8:0.000 9:0.000 10:0.000    lambda(5):0.231
 7 qId=1830    1:0.075 2:0.125 3:0.333 4:0.000 5:0.078 6:0.000 7:0.000 8:0.000 9:0.000 10:0.000    lambda(6):-0.033
 8 qId=1830    1:0.079 2:0.250 3:0.667 4:0.000 5:0.085 6:0.000 7:0.000 8:0.000 9:0.000 10:0.000    lambda(7):0.240
 9 qId=1830    1:0.148 2:0.000 3:0.000 4:0.000 5:0.148 6:0.000 7:0.000 8:0.000 9:0.000 10:0.000    lambda(8):0.247
10 qId=1830    1:0.059 2:0.000 3:0.000 4:0.000 5:0.059 6:0.000 7:0.000 8:0.000 9:0.000 10:0.000    lambda(9):-0.051
11 qId=1830    1:0.071 2:0.125 3:0.333 4:0.000 5:0.074 6:0.000 7:0.000 8:0.000 9:0.000 10:0.000    lambda(10):-0.061
复制代码

上表中除了第一列是qId,最后一列是lambda外,其余都是feature,比如我们选择feature(1)的0.059做分裂点,则左子节点<=0.059的doc有: 1, 2, 3, 9;而>0.059的被安排到右子节点,doc有4, 5, 6, 7, 8, 10。由此左右两个子节点的lambda均值分别为:

 

        λ L  ¯ =λ 1 +λ 2 +λ 3 +λ 9 4 =0.4950.2060.1040.0514 =0.214 λL¯=λ1+λ2+λ3+λ94=−0.495−0.206−0.104−0.0514=−0.214

        λ R  ¯ =λ 4 +λ 5 +λ 6 +λ 7 +λ 8 +λ 10 6 =0.231+0.2310.033+0.240+0.2470.0616 =0.143 λR¯=λ4+λ5+λ6+λ7+λ8+λ106=0.231+0.231−0.033+0.240+0.247−0.0616=0.143

 

继续计算左右子节点的平方误差和:

 

        s L = iL (λ i λ L  ¯ ) 2 =(0.495+0.214) 2 +(0.206+0.214) 2 +(0.104+0.214) 2 +(0.051+0.214) 2 =0.118 sL=∑i∈L(λi−λL¯)2=(−0.495+0.214)2+(−0.206+0.214)2+(−0.104+0.214)2+(−0.051+0.214)2=0.118

        s R = iR (λ i λ R  ¯ ) 2 =(0.2310.143) 2 +(0.2310.143) 2 +(0.0330.143) 2 +(0.2400.143) 2 +(0.2470.143) 2 +(0.0160.143) 2 =0.083 sR=∑i∈R(λi−λR¯)2=(0.231−0.143)2+(0.231−0.143)2+(−0.033−0.143)2+(0.240−0.143)2+(0.247−0.143)2+(0.016−0.143)2=0.083

 

因此将feature(1)的0.059的均方差(分裂代价)是:

 

        Cost 0.059@feature(1) =s L +s R =0.118+0.083=0.201 Cost0.059@feature(1)=sL+sR=0.118+0.083=0.201

 

我们可以像上面那样遍历所有feature的不同值,尝试分裂,计算Cost,最终选择所有可能分裂中最小Cost的那一个作为分裂点。然后将 s L  sL 和 s R  sR 分别作为左右子节点的属性存储起来,并把分裂的样本也分别存储到左右子节点中,然后维护一个队列,始终按平方误差和 s 降序插入新分裂出的节点,每次从该队列头部拿出一个节点(并基于这个节点上的样本)进行分裂(即最大均方差优先分裂),直到树的分裂次数达到参数设定(训练时传入的leaf值,叶子节点的个数与分裂次数等价)。这样我们就训练出了一棵Regression Tree。

 

上面讲述了一棵树的标准分裂过程,需要多提一点的是,树的分裂还有一个参数设定:叶子节点上的最少样本数,比如我们设定为3,则在feature(1)处,0.001和0.003两个值都不能作为分裂点,因为用它们做分裂点,左子树的样本数分别是1和2,均<3。叶子节点的最少样本数越小,模型则拟合得越好,当然也容易过拟合(over-fitting);反之如果设置得越大,模型则可能欠拟合(under-fitting),实践中可以使用cross validation的办法来寻找最佳的参数设定。

相关文章推荐

LambdaMART的源码分析:一(MART:回归树)

LambdaMART的源码分析:一(MART:回归树) 2014-12-31 17:39 491人阅读 评论(0) 收藏 举报 本文章已收录于: 分类: ...

Learning To Rank之LambdaMART的前世今生

LambdaMART是Learning To Rank的其中一个算法,适用于许多排序场景。它是微软Chris Burges大神的成果,最近几年非常火,屡次现身于各种机器学习大赛中,Yahoo! Lea...

Gradient Tree Boosting (GBM, GBRT, GBDT, MART)算法解析和基于XGBoost/Scikit-learn的实现

1. 概要 Gradient Tree Boosting (别名 GBM, GBRT, GBDT, MART)是一类很常用的集成学习算法,在KDD Cup, Kaggle组织的很多数据挖掘竞赛中多次表...

LambdaMART简介——基于Ranklib源码(一 lambda计算)

 LambdaMART简介——基于Ranklib源码(一 lambda计算) 时间:2014-08-09 21:01:49      阅读:168      评论:0      收藏:0 ...

LambdaMART简介——基于Ranklib源码(一 lambda计算)

 LambdaMART简介——基于Ranklib源码(一 lambda计算) 学习Machine Learning,阅读文献,看各种数学公式的推导,其实是一件很枯燥的事情。有的时候...

LambdaMART的源码分析:一(MART:回归树)

参考论文: From RankNet to LambdaRank to LambdaMART: An Overview(公式主要引用这个) GREEDY FUNCTION APPROXIMATIO...

Ranklib 源码 Rankboost

  • 2014年01月10日 17:18
  • 229KB
  • 下载

WEKA学习——CSVLoader 实例训练 和 源码分析

WEKA学习: CSVLoader按照自己需要加载文本数据,并且经StringToWordVector处理,应用于文本的分类和聚类。...

人脸检测源码解析——1、训练参数

在后面的章节中我们将对opencv2.4.9版本的Haar特征训练级联分类器的流程进行解析。打开OpenCV解决方案,找到applications/opencv_traincascade项目,训练的主...

STL源码剖析——RB-tree

一、红黑树概述      红黑树和我们以前学过的AVL树类似,都是在进行插入和删除操作时通过特定操作保持二叉查找树的平衡,从而获得较高的查找性能。不过自从红黑树出来后,AVL树就被放到了博物馆里,据说...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:LambdaMART简介——基于Ranklib源码(二 Regression Tree训练)
举报原因:
原因补充:

(最多只允许输入30个字)