1.2集成学习——GBDT

最新推荐文章于 2024-02-12 12:46:00 发布

weeeeeida

最新推荐文章于 2024-02-12 12:46:00 发布

阅读量237

点赞数

背景知识：
回归树
$D={(x_1,y_1),(x_2,y_2),...(x_N,y_N)}$
选择第j个变量 $x^{(j)}$ 和它取的值s,作为切分变量和切分点，假设已将输入空间划分为M个单元 $R_1,R_2...,R_M$ , 并且在每个单元 $R_m$ 上有一个固定的输出值 $c_m$ ，于是回归树模型可表示为 $f(x)=\sum_{m=1}^M c_mI(x\in R_m$
定义损失函数，例如 $\sum_{x_i\in R_m}(y-f(x_i))^2$
定义最优值 $\hat c_m$ , $\hat c_m = ave(y_i|x_i \in R_m)$
并定义两个区域： $R_1(j,s)=\{x|x^{(j)}\leq s\}\ R_2(j,s)=\{x|x_{(j)}>s\}$
寻找最优切分变量j和最优切分点s.求解
$min_{j,s} = [min_{c_1}\sum_{x_1\in R_1(j,s)}(y_i-c_1)^2 + min_{c_2}\sum_{x_1\in R_2(j,s)}(y_i-c_2)^2]$
求解方法：固定变量j，找到最佳划分点s
遍历变量j

1，GBDT概述
GBDT也是迭代，使用了前向分布算法，但是弱学习器限定了只能使用CART回归树模型，同时迭代思路和Adaboost也有所不同。
在GBDT的迭代中
1，上一轮迭代得到的强学习器是 $f_t(x)$ ,损失函数是 $L(y,f_{t-1}(x))$ .
2，本轮的目的是找到一个CART回归树模型的弱学习器 $h_t(x)$ ，让本轮的损失函数 $L(y,f_t(x)) = L(y,f_{t-1}(x) + h_t(x))$ 最小
2，GBDT的负梯度拟合
负梯度表示为：

r t i = - [\partial L ( y , f ( x i ) ) \partial f ( x i )] f (x) = f t - 1 (x)

$\begin{eqnarray*} r_{ti} = -\left[ \frac{\partial L(y,f(x_i))}{\partial f(x_i)}\right]_{f(x) = f_{t-1}(x)} \end{eqnarray*}$
利用

(xi,rti),(i=1，2...m) $(x_i,r_{ti}),(i =1，2...m)$ ，可以拟合一颗CART回归树。对应的叶结点区域

Rtj,j=1,2,...,J $R_{tj},j = 1,2,...,J$ ,J为叶子结点的个数
针对每一个叶子节点里的样本，求出损失函数最小时的弱学习器的取值

c t j = a r g m i n ⏟ c \sum x i \in R t j L (y i, f t - 1 (x i) + c)

$\begin{eqnarray*} c_{tj} = \underbrace{argmin}_{c}\sum_{x_i\in R_{tj}}L(y_i,f_{t-1}(x_i)+c) \end{eqnarray*}$
从而得出决策树拟合函数入下：

h t (x) = \sum j = 1 J c t j I (x \in R t j)

$\begin{eqnarray*} h_t(x)= \sum_{j=1}^Jc_{tj}I(x\in R_{tj}) \end{eqnarray*}$
从而得到强学习器的表达式如下：

f t (x) = f t - 1 (x) + c t j I (x \in R t j)

$\begin{eqnarray*} f_t(x) = f_{t-1}(x)+c_{tj}I(x\in R_{tj}) \end{eqnarray*}$
无论是分类问题还是回归问题，都可以通过损失函数的负梯度拟合，区别仅仅在于损失函数的不同
3，回归算法和分类算法的损失函数：
回归算法：
a)

L(y,f(x))=(y−f(x))2 $L(y,f(x)) = (y-f(x))^2$
b)

L(y,f(x))=|y−f(x)| $L(y,f(x)) = |y - f(x)|$ 对应的梯度误差为

sign(yi−f(xi)) $sign(y_i - f(x_i))$
c)Huber损失，对于远离中心的异常点，采用绝对损失，而中心附近的点采用均方差。这个界限一般用分位数点度量。

L (y, f (x)) L (y, f (x)) = = 1 2 (y - f (x)) 2 | y - f (x) | \leq δ δ (| y - f (x) | - δ 2) | y - f (x) | > δ

$\begin{eqnarray*} L(y,f(x)) &=& \frac{1}{2}(y-f(x))^2 \ \ |y - f(x)| \leq\delta \\ L(y,f(x)) &=& \delta(|y - f(x)| - \frac{\delta}{2}) \ \ |y - f(x)|>\delta \end{eqnarray*}$
d)分位数损失

L(y,f(x))=∑y≥f(x)θ|y−f(x)|+∑y<f(x)(1−θ)|y−f(x)| $L(y,f(x)) = \sum_{y\geq f(x)}\theta|y-f(x)| + \sum_{y<f(x)}(1-\theta)|y-f(x)|$
分类算法：
a)指数损失函数：

L(y,f(x))=exp(−yf(x)) $L(y,f(x)) = exp(-yf(x))$
b)对数损失函数：
二元分类：

L(y,f(x))=log(1+exp(−yf(x))) $L(y,f(x)) = log(1 + exp(-yf(x)))$
多元分类：

L(y,f(x))=−∑Kk=1yklogpk(x) $L(y,f(x)) = -\sum_{k=1}^K y_klog\,p_k(x)$
如果样本输出类别为k，则

yk=1 $y_k=1$ ，第k类的概率

pk(x) $p_k(x)$ 的表达式为：

p k (x) = e x p ( f k ( x ) ) \sum K l = 1 e x p ( f l ( x ) )

$\begin{eqnarray*} p_k(x) = \frac{exp(f_k(x))}{\sum_{l=1}^Kexp(f_l(x))} \end{eqnarray*}$
4，GBDT的正则化
第一种：
未正则化前:

fk(x)=fk−1(x)+hk(x) $\ \ f_k(x) = f_{k-1}(x) + h_k(x)$
正则化后：

fk(x)=fk−1(x)+vhk(x), v∈(0,1] $\ \ f_k(x) = f_{k-1}(x) + vh_k(x),\ \ v \in (0,1]$
第二种：
子采样比例，不放回的抽取部分样本，选择小于1的比例可以减少方差，即防止过拟合，但是会增加样本拟合的偏差，因此取值不能太低。取值在[0.5, 0.8]
第三种:
是对于弱学习器即CART回归树进行正则化剪枝。
5，优缺点
优点：
1) 可以灵活处理各种类型的数据，包括连续值和离散值。
2) 在相对少的调参时间情况下，预测的准备率也可以比较高。这个是相对SVM来说的。
3）使用一些健壮的损失函数，对异常值的鲁棒性非常强。比如Huber损失函数和Quantile损失函数。
缺点：
1)由于弱学习器之间存在依赖关系，难以并行训练数据。不过可以通过自采样的SGBT来达到部分并行。