论文选读Alternating Decision Forests和Alternating Regression Forests

最新推荐文章于 2024-07-04 16:20:32 发布

icelights

最新推荐文章于 2024-07-04 16:20:32 发布

阅读量940

点赞数

分类专栏：模式识别机器学习文章标签： cvpr iccv 随机森林模式识别机器学习

本文链接：https://blog.csdn.net/icelights/article/details/46915465

版权

模式识别机器学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

本文作者及概述

$\qquad$ 本次介绍两篇文章，分别是：
$\qquad$ Alternating Decision Forests by Samuel Schulter, Paul Wohlhart, Christian Leistner, Amir Saffari, Peter M.Roth, Horst Bischof，文章发表于CVPR2013，以及
$\qquad$ ALternating Regression Forests for Object Detection and Pose Estimation by Samuel Schulter, Christian Leistner, Paul Wohlhart, Peter M. Roth, Horst Bischof，发表于ICCV2013.
$\qquad$ 两篇论文都是更改了随机森林的训练方法，从通常决策树或者随机森林的深度优先训练变为广度优先训练，每训练一层（树的深度），就根据类似于gradient boosting的方式按梯度的大小来更新样本的权重，然后送入下一层训练，从而做到用一个全局最优化的目标函数来进行训练。标题里的Alternating指的是交替更新（1）样本权重（2）更新的样本权重用于训练节点分裂函数。

随机森林回顾

$\qquad$ 随机森林是这样一种映射，对于样本 $\{x_i,y_i\}^N_{i=1}$ ，其包含T棵决策树，构成 $T_t(x):X\rightarrow R^K$ ，其中 $x_i\in X=\mathbb{R}^M, y_i\in Y = \mathbb{R}^K$ ，对于分类问题， $\mathbb{R}^K = [0,1]^K$ ，表示样本属于第K类。对于回归问题， $\mathbb{R}^K$ 表示样本在K维空间中的向量预测。
$\qquad$ 在测试时，对于分类问题，对于样本 $x$ ，每棵决策树t输出其在每一个类上的后验概率 $p_t(y|x)$ ，对于回归问题则直接输出预测向量 $y_t$ 。
$\qquad$ 整个随机森林的输出为各棵树的平均，分类和回归问题分别为：

y * = a r g m a x y 1 T \sum t = 1 T p t (y | x) y * = a r g m a x y 1 T \sum t = 1 T y t

$y*=argmax_y \frac{1}{T}\sum^T_{t=1}p_t(y|x)\\ y*=argmax_y \frac{1}{T}\sum^T_{t=1}y_t$

$\qquad$ 对于分裂节点的特征和阈值选取，则采用信息增益的目标函数：

I = H (L \cup R) - | L | | L | + | R | H (L) - | R | | L | + | R | H (R)

$I=H(L\cup R)-\frac{|L|}{|L|+|R|}H(L)-\frac{|R|}{|L|+|R|}H(R)$
其中的

H(.) $H(.)$ 是熵。分类问题可以表示为：

H (S) = - \sum k = 1 K [p (k | S) l o g (p (k | S))]

$H(S)=-\sum^K_{k=1}[p(k|S)log(p(k|S))]$
回归问题可以表示为：

H (q) = \int y q (y | x) l o g (q (y | x)) d y

$H(q)=\int_yq(y|x)log(q(y|x))dy$
其中，

q(y|x) $q(y|x)$ 是输出值与输入样本的条件概率。当假设

q(.|.) $q(.|.)$ 为高斯分布，且样本数为有限值时，上式可以改写为一个闭式形式，如下：

H G a u s s (S) = K 2 (1 - l o g (2 π)) + 1 2 l o g (d e t (Σ S))

$H_{Gauss}(S) = \frac{K}{2}(1-log(2\pi))+\frac{1}{2}log(det(\Sigma_S))$

本文方法

全局损失函数与样本权重

$\qquad$ 本文采用了Boosting方法的思想。具体来说，Boosting方法的最终输出分类器F(x)，这其中包含了T个弱学习器 $f_t(x):X\rightarrow R^K$ ，每个弱学习器给出一个预测，根据错误率来更新样本权重和弱学习器在整个最终的分类器的权重。最终可以得出 $F(x)=\sum^T_{t=1}v_t f_t(x)$ ，其中 $v_t$ 是弱学习器在整个分类器中的权重。在训练第1个弱学习器时，所有样本的权重 $w_i^1$ 都设为零。在训练第t个弱学习器时，第i个样本的权重根据之前的结果根据一定的规则被调整为 $w_i^t$ 。
$\qquad$ 再根据GradientBoost的思想，可以进行全局最优化以下目标式：

a r g m i n Θ \sum i = 1 N l (y i; F D m a x (x i; Θ))

$argmin_{\Theta}\sum^N_{i=1}l(y_i;F_{D_{max}}(x_i;\Theta))$
其中l(.)是一个可导的损失函数，

FDmax(xi;Θ)∑Dmaxd=0fd(x,Θd) $F_{D_{max}}(x_i;\Theta)\sum^{D_{max}}_{d=0}f_d(x,\Theta_d)$ ，

Θ $\Theta$ 表示分裂节点的参数，

Θd $\Theta_d$ 表示第d层的分裂节点的参数。上式可以转化为一个贪婪算法：对于在第d层深的时候，可以采用如下的层级式的优化：

a r g m i n Θ d \sum i = 1 N l (y i; F d - 1 (x i; Θ) + f d (x i; Θ d))

$argmin_{\Theta_d}\sum^N_{i=1}l(y_i;F_{d-1}(x_i;\Theta)+f_d(x_i;\Theta_d))$
其中，

Fd−1(xi;Θ) $F_{d-1}(x_i;\Theta)$ 是第d-1层深时得出的整个随机森林的分类器。对上式进行一阶的泰勒展开，可以得到下式：

a r g m i n Θ d \sum i = 1 N l (y i; F d - 1 (x i; Θ)) - \partial l ( y i ; F d - 1 ( x i ; Θ ) ) \partial F ( x ) f d (x i; Θ d)

$argmin_{\Theta_d}\sum_{i=1}^Nl(y_i;F_{d-1}(x_i;\Theta))-\frac{\partial l(y_i;F_{d-1}(x_i;\Theta))}{\partial F(x)}f_d(x_i;\Theta_d)$
于是，每个样本的权重可以由上式的第二项中偏导数部分得出如下：

w t i = | \partial l ( y i ; F d - 1 ( x i ; Θ ) ) \partial F ( x ) |

$w_i^t=|\frac{\partial l(y_i;F_{d-1}(x_i;\Theta))}{\partial F(x)}|$

算法流程

$input: training\ sample:\{x_i,y_i\}^N_{i=1}，number\ of\ trees:T，maximum\ depth:D_{max}$
$init\ w_i^1$
$init\ F_0=f_0(x)$
$\textbf{for}\ d\ from\ 1\ to\ D_{max}\ \textbf{do}$
$\qquad Check\ stopoing\ criteria\ d\leq D_{max}$
$\qquad Caluculate(update)\ w^d_i$
$\qquad Find\ \Theta_d, using\ information\ gain\ I$
$\qquad Split\ nodes\ in\ depth\ d:$
$\qquad F_d(x;\Theta) = F_{d-1}(x;\Theta)+f_d(x;\Theta_d)$
$\textbf{end for}$

与其他方法的比较

$\qquad$ Boost方法因为是先训练完一棵完整树，再更新样本权重，最后再根据每棵树的预测错误率来给树设定权重，于是树的数量会比较多，训练会比较慢。ADF/ARF因为是训练的同时更新权重，所以反而用较少的树就能得到好一些的结果。论文里作者贴了实验对比，我就不上传了。

总结

$\qquad$ ADF/ARF两篇文章的作者把通常决策树用的深度优先训练变为广度优先训练，并采用了gradient boost的方法为样本设定权重，达到了更高的准确率，可以对新的idea的改进给出一定的引导的方向。

icelights

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
论文选读Alternating Decision Forests和Alternating Regression Forests

本文作者及概述\qquad本次介绍两篇文章，分别是： \qquadAlternating Decision Forests by Samuel Schulter, Paul Wohlhart, Christian Leistner, Amir Saffari, Peter M.Roth, Horst Bischof，文章发表于cvpr2013，以及 \qquadALternating Re
复制链接

扫一扫