参考来源: Liam Huang* 的slides,陈天奇关于xgboost的slides
本文仅代表个人理解,有不到位的或者有补充的欢迎指正,希望对大家共同进步有帮助。
LambdaMART = Lambda(LambdaRank) + MART(GBDT)
剧透一下: lambda很巧妙的用来描述求解过程中的迭代方向和强度,学过adam优化方法的人可能会很熟悉,在梯度之前乘上一个系数,这个系数是用来影响梯度的方向的。
一: GBDT:
BEGIN:
对于
更具体的来讲,决策树实际上对样本空间划分,并对每个划分区域有预测值。
由此可以得到
F是一颗回归决策树(可以参见李航<统计学习方法>)
再进一步来讲,就是要使得
END
二:Lambda
Ranking的常见评价指标都无法求梯度(仔细想想为什么), NGCG, ERR, MAP, MARR.所以直接套用这些指标做梯度下降难度很大。这个时候RankNet登场:
1.RankNet:
BEGIN:
这个算法的主要创新就是两两比较,得出两两的偏序关系。举个例子, 对于神经网络的输入有
RankNet的终极目标就是得到一个算分函数
损失函数为交叉熵,这里我偷懒打公式了,就是一个普通的分类问题,不一定是神经网络,用SVM啥的都行。核心部分就是上头的偏序概率函数定义。但是逆序对和topk两码事,不懂的可以参考拓扑排序或者参考原文的图。所以离预计的目标还差点。
附注: 如果我们不仅能够得到偏序关系,我们还知道偏多少,也就是一个偏序两样本之间的距离,这个距离由于NDCG的存在只能使得最后位置唯一。换句话说直接影响最后的topk排序。那么直接乘上一个step就行了,使得目标能走到它该到达的位置。LambdaRank就是这么诞生的。由于已经是直接满足topk,所以它是属于listwise。
END
2.LambdaRank:
BEGIN:
有必要提一下梯度的对称性,
还有个性质就是
END
3.LambdaMART
MART的缺一个梯度,lambda定义了一个梯度,完美!
至此解释了LambdaMART的由来了。
所以再扯一句,LambdaMART用的是二阶梯度,所以需要进行牛顿迭代,还缺一个二阶导函数,所以需要lambda对w进行一个求导。其他都是直接套框架。
附注: xgboost本质上也就是用的二阶导,所以不是非常明白的可以学一下。