【机器学习算法】决策树-5 CART回归树法,M5回归树算法对CART算法改进了什么

目录

Cart字段回归树算法

CART回归树的字段选择方式:

小插曲:M5如何利用模型树来提升CART回归树的效能

继续CART字段选择方式


我的主页:晴天qt01的博客_CSDN博客-数据分析师领域博主

目前进度:第四部分【机器学习算法】

Cart字段回归树算法

CART回归树的字段选择方式、如何利用模型树来提升CART回归树的效能

CART回归树和分类数大体上是相同的。只有在叶结点的地方比较特别,分类树在叶结点是yes或者no,回归树就是一个值。

数值其实就是平均数,方差作为不纯度衡量的标准(衡量目前的分布,是不是有一致性的倾向,就和之前的entropy,gain ratio差不多)

之前发明ID3,C4.5,C5.0的人也搞了一个M5,其实就是CART的加强版预测的比较准。

我们先说明CART回归数的基本内容,再说明M5对它的改进

案例:

 

字段1代表的是地理位置,字段2代表的是房屋类型,是独立的还是连接的,字段3代表的是与学区房的距离,字段4代表的是房屋大小。字段5代表的房屋社区有多少户人家(一般户数越多,价格越低)。实际成交价格。

这里我们把房屋价格作为均值,来预测房屋价格可以吗,当然是可以的,价格的均值是173.5,如果我们用这个来预测,我们就会发现,预测结果误差比较大。均值代表我们的机械模型,我们的结果一定要比这个好。我们发现如果预测结果差,那么它的方差误差也会非常大

现在我们了解了,我们要用均值为预测结果,方差为预测依据。那我们就可以建立CART模型了。

 

我们发现市区的房子,大概比郊区的房子贵2.5倍。

我们这个时候用252K来预测Urban的房屋价格。105K来预测Rural房屋价格。肯定是要比178.5K来预测二者价格要准确许多。

然后我们在用房屋类型字段进行划分,我们发现,结果是300K和220K

右边Type效果,所以我们使用Miles进行分堆,就是用之前的二分法。进行分堆。

我们发现,其实它很像是吧数据根据字段进行一个聚类,然后预测。所以效果很好,就算到现在也非常好用。

CART回归树的字段选择方式:

之前我们叶节点用的都是平价值,那我们就想,能不能不用平均值来预测,而采用线性回归来预测呢?发现效果很好。

我们这里用的是简单线性回归,它不采用很多的字段,就采用一个字段,进行预测。

比如左下角的那个数据,我们原本使用的是300这个平均值作为预测结果。但是现在我们选用简单线性回归,我们那第一个字段来试一试,0.1*2200+90=310,发现结果和第一个字段是一致的,相对来说比较准确。

 

小插曲:M5如何利用模型树来提升CART回归树的效能

M5的改进就是在这一步,选择不使用一元的简单线性回归,而是采用多元的线性回归来改进叶节点的精确性。

 

他把这个命名为模型树,因为你会发现如果树不成长的话,最差也是一个多元线性回归的模型进行预测。如果树展开,有4个叶节点,那么就说明有4个多元线性回归预测模型。那肯定要比一个多元线性回归预测要准确。

为什么效果一定会好呢?

举个例子,如果现在出现了一个非线性的模型它是呈现抛物线的情况,那么只有一条多元线性回归线的话,点到线的距离,就是误差值。

 

但是如果我们做2条多元线性回归,左边用一条线性回归模型来预测,右边用另一台多元线性回归模型来预测,那么就可以用多条线性回归模型来预测非线性的问题了。

 

模型树可以做非线性的回归,所以它一定会比多元线性回归的效果好。最差就是退回多元回归线性模型。

继续CART字段选择方式

 

如果我们用178.5继续预测,我们说预测结果误差太大,那怎么表现这个误差大呢?我们就采用方差的形式来表现这个误差。于是我们和之前CART的分类树一样,我们一个一个试,找出字段中效果最好的二元分支。

我们发现用location把数值将分差降低到2408,原本是7810.25.

然后我们计算其他的字段

 

明显location效果主要些。

然后是连续型字段,mails

 

每个切点我们都试一试。方差最小的情况是以17为分割点3300。

然后我们选择最好的字段,也就是location。

M5改善的效果就是叶节点利用多元线性回归方程(模型树来预测模型。)来作为预测结果。

  • 9
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 16
    评论
决策树算法机器学习中常用的一种算法,它通过构建一棵形结构来进行分类或回归任务。决策树算法有多种不同的变体,其中包括ID3算法、C4.5算法和基本决策树算法。 ID3算法是最早提出的一种决策树算法,它的核心思想是通过计算信息增益来选择最佳的特征进行节点的划分。具体步骤是:从根节点开始,计算每个特征的信息增益,选择信息增益最大的特征作为当前节点的划分特征,然后根据该特征的不同取值建立子节点,再对子节点递归地应用以上步骤,直到所有的特征信息增益很小或没有特征可选为止。 C4.5算法是对ID3算法改进,它引入了信息增益率(比)来选择特征,解决了ID3算法对于取值较多的特征有偏好的问题。与ID3算法相似,C4.5算法也使用递归的方式构建决策树,但在选择划分特征时,使用信息增益率作为选择的依据。 基本决策树算法决策树算法的一种简化版,它没有引入信息增益或信息增益率,而是通过计算基尼指数来选择最佳的划分特征。基尼指数衡量了一个特征的不纯度,选择基尼指数最小的特征进行划分。基本决策树算法相对于ID3算法和C4.5算法更简单直观,但在某些情况下可能会有一定的性能损失。 总的来说,决策树算法通过构建一棵形结构来进行分类或回归任务,其中ID3算法、C4.5算法和基本决策树算法是其中的三种常见变体。每种算法都有其特点和优缺点,选择适合具体问题的算法可以提高算法的性能和准确性。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* *3* [机器学习算法(3)之决策树算法](https://blog.csdn.net/qq_20412595/article/details/82048795)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 100%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 16
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

晴天qt01

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值