树模型中分裂特征选择标准--信息熵,信息增益,信息增益率的计算

1.熵:集和的熵值 -sum(pi * log(pi , 2))

2.信息增益:集和的熵-按照特征a划分后子集的熵加权和(偏向类别数目多的属性) 

3.信息增益率:信息增益/属性的熵(偏向类别数目少的属性)

4.基尼值:1-集和各类别值的概率平方和(随机抽取两个样本其类别不一致的概率) 1 - sum(pi**2)

5.基尼系数:按照属性a划分后各子集的加权基尼和

ID3:判别式模型,分类树,多叉树,信息增益

C4.5:判别式模型,分类树,多叉树,信息增益率,剪枝,连续值(遍历),缺失值(按照样本概率加到叶子节点)

CART:判别式模型,分类与回归树,二叉树,基尼系数,GBDT的基模型

C4.5是机器学习算法中的另一个分类决策树算法,它是基于ID3算法进行改进后的一种重要算法,相比于ID3算法,改进有如下几个要点:

· 用信息增益率来选择属性。ID3选择属性用的是子树的信息增益,这里可以用很多方法来定义信息,ID3使用的是熵(entropy, 熵是一种不纯度度量准则),也就是熵的变化值,而C4.5用的是信息增益率。

· 

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值