决策树系列之提升

最新推荐文章于 2023-12-29 01:48:17 发布

coffeetea01

最新推荐文章于 2023-12-29 01:48:17 发布

阅读量2.1k

点赞数

本文链接：https://blog.csdn.net/coffeetea01/article/details/80298835

版权

 
 0、由决策树和随机森林的关系的思考 

 
 随机森林的决策树分别 
 采样建立，相对独立 
 。 

 
 思考： 

 
 1、假定当前一定得到了m-1棵决策树，是否可以通过现有的样本和决策树信息，对第m棵决策树的建立产生有益的影响？ 

 
 2、各个决策树组成的随机森林后，最后的投票过程可否在简历决策树时确定？ 

 
 1、提升的概念 

 
 提升是一个机器学习技术，可以用到回归和分类的问题，它每一步产生一个弱分类器，并加权累加到总模型中； 

 
 如果每一步的弱分类器生成都是根据损失函数的梯度方向，称之为 
 梯度提升 
 。（ 
 Gradient boosting 
 ） 

 
 梯度提升算法，首先给定一个目标损失函数，它的定义域是所有可行的弱函数集合（基函数）； 

 
 提升算法通过 
 迭代选择一个负梯度方向上的基函数 
 来逐渐局部极小值。 

 
 提升的理论意义 
 ：如果一个问题存在弱分类器，则可以通过提升的方法得到强分类器。 

 
 2、提升的算法 

 
 输入向量x和输出变量y组成的若干训练样本：（x1,y1）,（x2,y2）...（xn,yn） 

 
 目标：找到近似函数F(x),是的损失函数L(y,F(x))的损失值最小 

 
 损失函数典型定义：L(y,F(x))=0.5(y-F(x))^2 

 
  L(y,F(x))=|y-F(x)| 

 
 若寻找到最优函数,设定为F(x),即F(x)=argmin E(x,y)[L(y,F(x))] 

 
 又假定了F(x)是一族基函数f(x)的加权和， 

 
 F(x)= 

 
 而 
 如何得到基函数的组合，是梯度提升的算法内容 
 。 

 
 3、提升的算法框架 

 
 梯度提升方法寻找最优解F(x)，使得损失函数在训练集的期望最小。 

 
 方法如下： 

 
 3.1、给定常函数F0(x):  

 
 3.2、以贪心算法得到新增的f(x) 

关注