1.2集成学习——GBDT

背景知识:
回归树
D=(x1,y1),(x2,y2),...(xN,yN)
选择第j个变量 x(j) 和它取的值s,作为切分变量和切分点,假设已将输入空间划分为M个单元 R1,R2...,RM , 并且在每个单元 Rm 上有一个固定的输出值 cm ,于是回归树模型可表示为 f(x)=Mm=1cmI(xRm
定义损失函数,例如 xiRm(yf(xi))2
定义最优值 ĉ m , ĉ m=ave(yi|xiRm)
并定义两个区域: R1(j,s)={x|x(j)s} R2(j,s)={x|x(j)>s}
寻找最优切分变量j和最优切分点s.求解
minj,s=[minc1x1R1(j,s)(yic1)2+minc2x1R2(j,s)(yic2)2]
求解方法:固定变量j,找到最佳划分点s
遍历变量j

1,GBDT概述
GBDT也是迭代,使用了前向分布算法,但是弱学习器限定了只能使用CART回归树模型,同时迭代思路和Adaboost也有所不同。
在GBDT的迭代中
1,上一轮迭代得到的强学习器是 ft(x) ,损失函数是 L(y,ft1(x)) .
2,本轮的目的是找到一个CART回归树模型的弱学习器 ht(x) ,让本轮的损失函数 L(y,ft(x))=L(y,ft1(x)+ht(x)) 最小
2,GBDT的负梯度拟合
负梯度表示为:

rti=[L(y,f(xi))f(xi)]f(x)=ft1(x)

利用 (xi,rti),(i=12...m) ,可以拟合一颗CART回归树。对应的叶结点区域 Rtj,j=1,2,...,J ,J为叶子结点的个数
针对每一个叶子节点里的样本,求出损失函数最小时的弱学习器的取值
ctj=argmincxiRtjL(yi,ft1(xi)+c)

从而得出决策树拟合函数入下:
ht(x)=j=1JctjI(xRtj)

从而得到强学习器的表达式如下:
ft(x)=ft1(x)+ctjI(xRtj)

无论是分类问题还是回归问题,都可以通过损失函数的负梯度拟合,区别仅仅在于损失函数的不同
3,回归算法和分类算法的损失函数:
回归算法:
a) L(y,f(x))=(yf(x))2
b) L(y,f(x))=|yf(x)| 对应的梯度误差为 sign(yif(xi))
c)Huber损失,对于远离中心的异常点,采用绝对损失,而中心附近的点采用均方差。这个界限一般用分位数点度量。
L(y,f(x))L(y,f(x))==12(yf(x))2  |yf(x)|δδ(|yf(x)|δ2)  |yf(x)|>δ

d)分位数损失
L(y,f(x))=yf(x)θ|yf(x)|+y<f(x)(1θ)|yf(x)|
分类算法:
a)指数损失函数: L(y,f(x))=exp(yf(x))
b)对数损失函数:
二元分类: L(y,f(x))=log(1+exp(yf(x)))
多元分类: L(y,f(x))=Kk=1yklogpk(x)
如果样本输出类别为k,则 yk=1 ,第k类的概率 pk(x) 的表达式为:
pk(x)=exp(fk(x))Kl=1exp(fl(x))

4,GBDT的正则化
第一种:
未正则化前:   fk(x)=fk1(x)+hk(x)
正则化后:   fk(x)=fk1(x)+vhk(x),  v(0,1]
第二种:
子采样比例,不放回的抽取部分样本,选择小于1的比例可以减少方差,即防止过拟合,但是会增加样本拟合的偏差,因此取值不能太低。取值在[0.5, 0.8]
第三种:
是对于弱学习器即CART回归树进行正则化剪枝。
5,优缺点
优点:
1) 可以灵活处理各种类型的数据,包括连续值和离散值。
2) 在相对少的调参时间情况下,预测的准备率也可以比较高。这个是相对SVM来说的。
3)使用一些健壮的损失函数,对异常值的鲁棒性非常强。比如Huber损失函数和Quantile损失函数。
缺点:
1)由于弱学习器之间存在依赖关系,难以并行训练数据。不过可以通过自采样的SGBT来达到部分并行。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
毕业设计,基于SpringBoot+Vue+MySQL开发的公寓报修管理系统,源码+数据库+毕业论文+视频演示 现代经济快节奏发展以及不断完善升级的信息化技术,让传统数据信息的管理升级为软件存储,归纳,集中处理数据信息的管理方式。本公寓报修管理系统就是在这样的大环境下诞生,其可以帮助管理者在短时间内处理完毕庞大的数据信息,使用这种软件工具可以帮助管理人员提高事务处理效率,达到事半功倍的效果。此公寓报修管理系统利用当下成熟完善的Spring Boot框架,使用跨平台的可开发大型商业网站的Java语言,以及最受欢迎的RDBMS应用软件之一的MySQL数据库进行程序开发。公寓报修管理系统有管理员,住户,维修人员。管理员可以管理住户信息和维修人员信息,可以审核维修人员的请假信息,住户可以申请维修,可以对维修结果评价,维修人员负责住户提交的维修信息,也可以请假。公寓报修管理系统的开发根据操作人员需要设计的界面简洁美观,在功能模块布局上跟同类型网站保持一致,程序在实现基本要求功能时,也为数据信息面临的安全问题提供了一些实用的解决方案。可以说该程序在帮助管理者高效率地处理工作事务的同时,也实现了数据信息的整体化,规范化与自动化。 关键词:公寓报修管理系统;Spring Boot框架;MySQL;自动化;VUE
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值