机器学习-决策树

1.决策树的生成:

*特征选择:从训练数据的特征中选择一个特征作为当前节点的分裂标准
*决策树生成:根据所选特征评估标准,从上至下递归地生成子节点,直到数据集不可分
*剪枝:决策树容易过拟合,需要剪枝来缩小树的结构和规模(包括预剪枝和后剪枝)。

 

2.信息熵(entropy):是用来衡量一个随机变量出现的期望值。如果信息的不确定性越大,熵的值也就越大。(熵描述了数据的混乱程度,熵越大,混乱程度越高)

其中,S为所有事件集合,p为发生概率,c为特征总数。以二分类问题为例,如果两类的数量相同,此时分类节点的纯度最低,熵等于1;如果节点的数据属于同一类时,此时节点的纯度最高,熵 等于0。注意:熵是以2进制位的个数来度量编码长度的,因此熵的最大值是log2C。

 

3.ID3算法:核心思想是以信息增益度量属性选择,选择分裂后信息增益最大的属性进行分裂。ID3算法是建立在奥卡姆剃刀的基础上:越是小型的决策树越优于大的决策树。

信息增益(information gain)是指信息划分前后的熵的变化,也就是说由于使用这个属性分割样例而导致的期望熵降低。这个差值叫Gain信息增益,具体计算法如下:

*优缺点:没有剪枝过程(为了去除过渡数据匹配的问题,可通过裁剪合并相邻的无法产生大量信息增益的叶子节点)、
信息增益的方法偏向选择具有大量值的属性(这样是不合理的,比如选择日期作为分裂属性)、只可以处理离散分布的数据特征、贪心算法不能回溯。

 

4.C4.5算法:用信息增益率来选择属性,克服了用信息增益选择属性偏向选择多值属性的不足、在构造树的过程中进行剪枝、对连续属性进行离散化、能够对不完整的数据进行处理。

设样本集S按离散属性F的c个不同的取值划分为c个子集,则这c个子集的信息熵为(惩罚因子:如果该属性取值越大惩罚因子越大,这样使得信息增益比变小):

信息增益率是信息增益与惩罚因子的比例,如下:

 

5.CART树:又名分类回归树,当CART是分类树时,采用GINI值作为节点分裂的依据;当CART是回归树时,采用样本的最小方差作为节点分裂的依据。

*基尼值计算公式如下:

 

  其中Pi表示类i的数量占比。其同样以上述熵的二分类例子为例,当两类数量相等时,基尼值等于0.5 ;当节点数据属于同一类时,基尼值等于0 。基尼值越大,数据越不纯。

*回归方差计算公式:

                                  

      方差越大,表示该节点的数据越分散,预测的效果就越差。如果一个节点的所有数据都相同,那么方差就为0,此时可以很肯定得认为该节点的输出值;如果节点的数据相差很大,那么输出的值有很大的可能与实际值相差较大。

*无论是分类树还是回归树,CART都要选择使子节点的GINI值或者回归方差最小的属性作为分裂的方案。即最小化(分类树):

        

        

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值