Decision_Tree && Regression Tree

  • Regression tree中:node split时,是穷举每一个attri的value来计算残差。如果是 node value就是这个node里面的样本均值。

  • 决策树和回归树在 node split 时候,一个是选择最大的信息增益,一个是选择最大的残差增益。具体可以这样理解:

113421_vnrt_1399748.png

         Info(D) 就是当前node状态下的 entropy_A, 减数表示如果根据A属性进行分裂后的 entropy_B,因为 entropy 表示混乱度,节点越混乱则表示node中的类越杂,或者说残差越大(MSE),但是我们希望 node 中的类越纯越好,或者 node中的误差越小越好,所以应该尽量选择上述1式中减数min的,这样分裂后的结果是非常纯净的。被减数越小,则差越大,所以会有 “选择最大的信息增益或者最大的残差增益”。

  • 关于 Information Gain讲的太多这里不说,主要描述下 残差增益:

         既然是残差增益,首先要计算残差(B),计算分裂后残差的方式就是穷举attri中的每一个val,来计算MSE,选择一个MSE最小的。因为是增益,所以要计算当前节点的本身残差(A),也就是用当前node的预测值和每一个sample做计算得到MSE,然后用 A-B就是 残差增益。注意在 VFDT 模型中,要比较 最大的残差增益和第二大的残差增益,数学变化一下就是用 MSE2nd - MSE1st 和 Hoeffding bound比较。

转载于:https://my.oschina.net/supersonic/blog/484591

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值