决策树个人理解


    
    
"""
香农熵:
在信息论中,熵是接收的每条消息中包含的信息的平均量,又被称为信息熵、信源熵、平均自信息量。这里, 消息代表来自分布或数据流中的事件、样本或特征。
(熵最好理解为不确定性的量度而不是确定性的量度,因为越随机的信源的熵越大。)
决策树:
1、计算当前的信息熵HB,计算每个特征的信息熵的期望Hi,选择能使HB-Hi最大的那个
特征作为这次的分类特征。(能否理解为每次选择熵减少最多的方向)
2、直到无法分类为止,只有一个类别了或则所有特征都用作分类了
对于决策树的理解:
决策树,就是为了更好的进行分类。那么怎样的分类才比较好呢(选择什么属性来分),
在进行分类的时候,我们当然是想每个分类里面的个体都是比较相近的,即比较纯的。
在前面我们已经了解到,熵可以反映系统的有序程度。熵越大,代表系统越无序(不纯)。熵越小
代表系统越有序(纯)。所以引进信息熵来描述系统的纯度。
有那么多的属性,选择哪个属性分的类更纯呢。所以我们需要计算连个值,一个是系统当前
的熵,第二个是按某个属性划分的子系统的熵的期望(条件熵:属性便是条件)。选择能使
熵 减 条件熵 的 值最大的属性作为当前系统的分类属性。
"""

参考:
熵:

条件熵:

决策树PPT:

决策树的博文:

《机器学习实战》


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值