1.2集成学习——GBDT

背景知识:
回归树
D=(x1,y1),(x2,y2),...(xN,yN)
选择第j个变量 x(j) 和它取的值s,作为切分变量和切分点,假设已将输入空间划分为M个单元 R1,R2...,RM , 并且在每个单元 Rm 上有一个固定的输出值 cm ,于是回归树模型可表示为 f(x)=Mm=1cmI(xRm
定义损失函数,例如 xiRm(yf(xi))2
定义最优值 ĉ m , ĉ m=ave(yi|xiRm)
并定义两个区域: R1(j,s)={x|x(j)s} R2(j,s)={x|x(j)>s}
寻找最优切分变量j和最优切分点s.求解
minj,s=[minc1x1R1(j,s)(yic1)2+minc2x1R2(j,s)(yic2)2]
求解方法:固定变量j,找到最佳划分点s
遍历变量j

1,GBDT概述
GBDT也是迭代,使用了前向分布算法,但是弱学习器限定了只能使用CART回归树模型,同时迭代思路和Adaboost也有所不同。
在GBDT的迭代中
1,上一轮迭代得到的强学习器是 ft(x) ,损失函数是 L(y,ft1(x)) .
2,本轮的目的是找到一个CART回归树模型的弱学习器 ht(x) ,让本轮的损失函数 L(y,ft(x))=L(y,ft1(x)+ht(x)) 最小
2,GBDT的负梯度拟合
负梯度表示为:

rti=[L(y,f(xi))f(xi)]f(x)=ft1(x)

利用 (xi,rti),(i=12...m) ,可以拟合一颗CART回归树。对应的叶结点区域 Rtj,j=1,2,...,J ,J为叶子结点的个数
针对每一个叶子节点里的样本,求出损失函数最小时的弱学习器的取值
ctj=argmincxiRtjL(yi,ft1(xi)+c)

从而得出决策树拟合函数入下:
ht(x)=j=1JctjI(xRtj)

从而得到强学习器的表达式如下:
ft(x)=ft1(x)+ctjI(xRtj)

无论是分类问题还是回归问题,都可以通过损失函数的负梯度拟合,区别仅仅在于损失函数的不同
3,回归算法和分类算法的损失函数:
回归算法:
a) L(y,f(x))=(yf(x))2
b) L(y,f(x))=|yf(x)| 对应的梯度误差为 sign(yif(xi))
c)Huber损失,对于远离中心的异常点,采用绝对损失,而中心附近的点采用均方差。这个界限一般用分位数点度量。
L(y,f(x))L(y,f(x))==12(yf(x))2  |yf(x)|δδ(|yf(x)|δ2)  |yf(x)|>δ

d)分位数损失
L(y,f(x))=yf(x)θ|yf(x)|+y<f(x)(1θ)|yf(x)|
分类算法:
a)指数损失函数: L(y,f(x))=exp(yf(x))
b)对数损失函数:
二元分类: L(y,f(x))=log(1+exp(yf(x)))
多元分类: L(y,f(x))=Kk=1yklogpk(x)
如果样本输出类别为k,则 yk=1 ,第k类的概率 pk(x) 的表达式为:
pk(x)=exp(fk(x))Kl=1exp(fl(x))

4,GBDT的正则化
第一种:
未正则化前:   fk(x)=fk1(x)+hk(x)
正则化后:   fk(x)=fk1(x)+vhk(x),  v(0,1]
第二种:
子采样比例,不放回的抽取部分样本,选择小于1的比例可以减少方差,即防止过拟合,但是会增加样本拟合的偏差,因此取值不能太低。取值在[0.5, 0.8]
第三种:
是对于弱学习器即CART回归树进行正则化剪枝。
5,优缺点
优点:
1) 可以灵活处理各种类型的数据,包括连续值和离散值。
2) 在相对少的调参时间情况下,预测的准备率也可以比较高。这个是相对SVM来说的。
3)使用一些健壮的损失函数,对异常值的鲁棒性非常强。比如Huber损失函数和Quantile损失函数。
缺点:
1)由于弱学习器之间存在依赖关系,难以并行训练数据。不过可以通过自采样的SGBT来达到部分并行。

1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 、4下载使用后,可先查看README.md或论文文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。 5、资源来自互联网采集,如有侵权,私聊博主删除。、可私 6信博主看论文后选择购买源代码。 1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 、4下载使用后,可先查看README.md或论文文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。 5、资源来自互联网采集,如有侵权,私聊博主删除。、可 6私信博主看论文后选择购买源代码。 1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 、4下载使用后,可先查看README.md或论文文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。 5、资源来自互联网采集,如有侵权,私聊博主删除。、可私 6信博主看论文后选择购买源代码。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值