提升树算法 详解

提升树是以决策树为基分类器的提升方法,通常使用CART树。针对不同问题的提升树学习算法,主要区别在于使用的损失函数不同。

1)分类问题:指数损失函数。可以使用CART分类树作为AdaBoost的基分类器,此时为分类提升树。

2)回归问题:平方误差损失函数。

3)决策问题:一般损失函数。

 

1、提升树算法

提升树采用线性模型+前向分步算法+CART树(基函数)。提升树的加法模型可表示为:

(此时树前面并没有权重!!下面有分析)

1)基函数是分类树(二叉分类树)

对于基函数是分类树时,我们使用指数损失函数,此时正是AdaBoost算法的特殊情况,即将AdaBoost算法中的基分类器使用分类树即可。

 

2)基函数是回归树

若基函数是回归树,则使用平方误差损失函数。

我们将回归树的输入空间划分为R1,R2,…,RJ个区域,每个区域的输出分别为:Cj,则回归树可以表示为:

前向分步算法第m步的得到的模型为:

平方误差损失函数为:

设:,rm即为当前模型拟合数据的残差。对回归问题的提升树算法来说,只需简单地拟合当前模型的残差。

因为需要用到上一步的分类器,故而在每轮都需要计算残差,然后遍历可能的切分点,找出平方损失函数最小的切分点将输入划分为两个子集,然后依次类推,直到不能继续划分。

算法过程:

训练集为:T={(x1,y1),(x2,y2),…,(xn,yn)}。

1)初始化:f0(x)=0

2)下面共进行M轮的迭代,对于第m轮的迭代过程如下:(m=1,2,…,M)

  A)遍历每个特征的每个可能取值,计算残差:

  

  B)对于特征的每个可能取值,选择平方损失函数最小的切分点,得到树

  C)更新

3)最终得到回归问题提升树:

在上面的算法中,并没有在每个基分类器前面加上权值,此算法通过每次减小残差的方式来减小每轮所产生的模型的损失函数,通过这种方式,逐步减小残差值来使得损失函数减小,这样的话最初的模型的损失函数应该最大,那么在最终的线性组合中应该减小它的权重,但是上述算法并没有这样做,而是将每轮产生的模型通过均值或投票的方式来产生最终的结果??

其实,在每轮的迭代过程中生成的 并不是一个独立的分类器,它只是对残差的拟合,只有将它添加到前一轮的累加模型中才会对训练集有好的分类或回归效果。

 

3、损失函数最小化方法

         对于最开始提到的三种损失函数,其最小化方法各有不同。当损失函数为下面几种函数时,最小化损失函数的方法如下:

1)指数函数

         当损失函数为指数函数时,比如AdaBoost算法的损失函数是指数函数,这时通过前向分步算法来解决。

         前向分布算法在每轮迭代时,通过将上一轮所生成的模型所产生的损失函数最小化的方法来计算当前模型的参数。

2)平方误差损失函数

         在回归树提升算法中,遍历当前输入样例的可能取值,将每种可能值计算一遍损失函数,最终选择损失函数最小的值。(很原始)

在计算平方损失误差时,可能出现残差项(y-fm-1(x)),此时可以通过如下方法来进行优化:每一轮迭代是为了减小上一步模型的残差,为了减少残差,每次在残差的负梯度方向建立一个新的模型,这样一步一步的使得残差越来越小。

3)一般损失函数

         对于一般损失函数,可以通过梯度下降的方法来使得损失函数逐步减小,每次向损失函数的负梯度方向移动,直到损失函数值到达谷底。

 

 

 

参考文献:

[1] 李航,统计学习方法。

[2] 林轩田,机器学习技法(coursera)。

[3] leftnoteasy, http://www.cnblogs.com/LeftNotEasy/archive/2011/03/07/1976562.html

[4] w28971023, http://blog.csdn.net/w28971023/article/details/43704775

 

转载于:https://www.cnblogs.com/liuwu265/p/4693113.html

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
C语言是一种广泛使用的编程语言,它具有高效、灵活、可移植性强等特点,被广泛应用于操作系统、嵌入式系统、据库、编译器等领域的开发。C语言的基本语法包括变量、据类型、运算符、控制结构(如if语句、循环语句等)、函、指针等。在编写C程序时,需要注意变量的声明和定义、指针的使用、内存的分配与释放等问题。C语言中常用的据结构包括: 1. 组:一种存储同类型据的结构,可以进行索引访问和修改。 2. 链表:一种存储不同类型据的结构,每个节点包含据和指向下一个节点的指针。 3. 栈:一种后进先出(LIFO)的据结构,可以通过压入(push)和弹出(pop)操作进行据的存储和取出。 4. 队列:一种先进先出(FIFO)的据结构,可以通过入队(enqueue)和出队(dequeue)操作进行据的存储和取出。 5. :一种存储具有父子关系的据结构,可以通过中序遍历、前序遍历和后序遍历等方式进行据的访问和修改。 6. 图:一种存储具有节点和边关系的据结构,可以通过广度优先搜索、深度优先搜索等方式进行据的访问和修改。 这些据结构在C语言中都有相应的实现方式,可以应用于各种不同的场景。C语言中的各种据结构都有其优缺点,下面列举一些常见的据结构的优缺点: 组: 优点:访问和修改元素的速度非常快,适用于需要频繁读取和修改据的场合。 缺点:组的长度是固定的,不适合存储大小不固定的动态据,另外组在内存中是连续分配的,当组较大时可能会导致内存碎片化。 链表: 优点:可以方便地插入和删除元素,适用于需要频繁插入和删除据的场合。 缺点:访问和修改元素的速度相对较慢,因为需要遍历链表找到指定的节点。 栈: 优点:后进先出(LIFO)的特性使得栈在处理递归和括号匹配等问题时非常方便。 缺点:栈的空间有限,当据量较大时可能会导致栈溢出。 队列: 优点:先进先出(FIFO)的特性使得
该资源内项目源码是个人的课程设计、毕业设计,代码都测试ok,都是运行成功后才上传资源,答辩评审平均分达到96分,放心下载使用! ## 项目备注 1、该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的,请放心下载使用! 2、本项目适合计算机相关专业(如计科、人工智能、通信工程、自动化、电子信息等)的在校学生、老师或者企业员工下载学习,也适合小白学习进阶,当然也可作为毕设项目、课程设计、作业、项目初期立项演示等。 3、如果基础还行,也可在此代码基础上进行修改,以实现其他功能,也可用于毕设、课设、作业等。 下载后请首先打开README.md文件(如有),仅供学习参考, 切勿用于商业用途。 该资源内项目源码是个人的课程设计,代码都测试ok,都是运行成功后才上传资源,答辩评审平均分达到96分,放心下载使用! ## 项目备注 1、该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的,请放心下载使用! 2、本项目适合计算机相关专业(如计科、人工智能、通信工程、自动化、电子信息等)的在校学生、老师或者企业员工下载学习,也适合小白学习进阶,当然也可作为毕设项目、课程设计、作业、项目初期立项演示等。 3、如果基础还行,也可在此代码基础上进行修改,以实现其他功能,也可用于毕设、课设、作业等。 下载后请首先打开README.md文件(如有),仅供学习参考, 切勿用于商业用途。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值