Decision_Tree && Regression Tree

weixin_33994444

于 2015-07-28 11:21:00 发布

阅读量133

点赞数

文章标签： python 数据结构与算法

原文链接：https://my.oschina.net/supersonic/blog/484591

版权

2019独角兽企业重金招聘Python工程师标准>>>

Regression tree中：node split时，是穷举每一个attri的value来计算残差。如果是 node value就是这个node里面的样本均值。
决策树和回归树在 node split 时候，一个是选择最大的信息增益，一个是选择最大的残差增益。具体可以这样理解：

Info(D) 就是当前node状态下的 entropy_A，减数表示如果根据A属性进行分裂后的 entropy_B，因为 entropy 表示混乱度，节点越混乱则表示node中的类越杂，或者说残差越大(MSE)，但是我们希望 node 中的类越纯越好，或者 node中的误差越小越好，所以应该尽量选择上述1式中减数min的，这样分裂后的结果是非常纯净的。被减数越小，则差越大，所以会有 “选择最大的信息增益或者最大的残差增益”。

关于 Information Gain讲的太多这里不说，主要描述下残差增益：

既然是残差增益，首先要计算残差（B），计算分裂后残差的方式就是穷举attri中的每一个val，来计算MSE，选择一个MSE最小的。因为是增益，所以要计算当前节点的本身残差（A），也就是用当前node的预测值和每一个sample做计算得到MSE，然后用 A-B就是残差增益。注意在 VFDT 模型中，要比较最大的残差增益和第二大的残差增益，数学变化一下就是用 MSE2nd - MSE1st 和 Hoeffding bound比较。

转载于:https://my.oschina.net/supersonic/blog/484591

weixin_33994444

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。