0、由决策树和随机森林的关系的思考
随机森林的决策树分别
采样建立,相对独立
。
思考:
1、假定当前一定得到了m-1棵决策树,是否可以通过现有的样本和决策树信息,对第m棵决策树的建立产生有益的影响?
2、各个决策树组成的随机森林后,最后的投票过程可否在简历决策树时确定?
1、提升的概念
提升是一个机器学习技术,可以用到回归和分类的问题,它每一步产生一个弱分类器,并加权累加到总模型中;
如果每一步的弱分类器生成都是根据损失函数的梯度方向,称之为
梯度提升
。(
Gradient boosting
)
梯度提升算法,首先给定一个目标损失函数,它的定义域是所有可行的弱函数集合(基函数);
提升算法通过
迭代选择一个负梯度方向上的基函数
来逐渐局部极小值。
提升的理论意义
:如果一个问题存在弱分类器,则可以通过提升的方法得到强分类器。
2、提升的算法
输入向量x和输出变量y组成的若干训练样本:(x1,y1),(x2,y2)...(xn,yn)
目标:找到近似函数F(x),是的损失函数L(y,F(x))的损失值最小
损失函数典型定义:L(y,F(x))=0.5(y-F(x))^2
L(y,F(x))=|y-F(x)|
若寻找到最优函数,设定为F(x),即F(x)=argmin E(x,y)[L(y,F(x))]
又假定了F(x)是一族基函数f(x)的加权和,
F(x)=
而
如何得到基函数的组合,是梯度提升的算法内容
。
3、提升的算法框架
梯度提升方法寻找最优解F(x),使得损失函数在训练集的期望最小。
方法如下:
3.1、给定常函数F0(x):
3.2、以贪心算法得到新增的f(x)