决策树个人理解

最新推荐文章于 2024-05-22 11:25:42 发布

guoguo_dreamfly

最新推荐文章于 2024-05-22 11:25:42 发布

阅读量1k

点赞数

分类专栏： python 文章标签：机器学习算法决策树

本文链接：https://blog.csdn.net/guoguo_dreamfly/article/details/50879775

版权

python 专栏收录该内容

10 篇文章 0 订阅

订阅专栏

    
    
     
     
      
      """
     
     
     
     
      
      香农熵：
     
     
     
     
      
          在信息论中，熵是接收的每条消息中包含的信息的平均量，又被称为信息熵、信源熵、平均自信息量。这里， 消息代表来自分布或数据流中的事件、样本或特征。
     
     
     
     
      
          （熵最好理解为不确定性的量度而不是确定性的量度，因为越随机的信源的熵越大。）
     
     
     
     
      
          
     
     
     
     
      
      决策树：
     
     
     
     
      
          1、计算当前的信息熵HB，计算每个特征的信息熵的期望Hi，选择能使HB-Hi最大的那个
     
     
     
     
      
          特征作为这次的分类特征。(能否理解为每次选择熵减少最多的方向)
     
     
     
     
      
          2、直到无法分类为止，只有一个类别了或则所有特征都用作分类了
     
     
     
     
      
          
     
     
     
     
      
          
     
     
     
     
      
      对于决策树的理解：
     
     
     
     
      
          决策树，就是为了更好的进行分类。那么怎样的分类才比较好呢（选择什么属性来分），
     
     
     
     
      
          在进行分类的时候，我们当然是想每个分类里面的个体都是比较相近的，即比较纯的。
     
     
     
     
      
          
     
     
     
     
      
          在前面我们已经了解到，熵可以反映系统的有序程度。熵越大，代表系统越无序(不纯)。熵越小
     
     
     
     
      
          代表系统越有序(纯)。所以引进信息熵来描述系统的纯度。
     
     
     
     
      
          
     
     
     
     
      
          有那么多的属性，选择哪个属性分的类更纯呢。所以我们需要计算连个值，一个是系统当前
     
     
     
     
      
          的熵，第二个是按某个属性划分的子系统的熵的期望(条件熵：属性便是条件)。选择能使
     
     
     
     
      
          熵 减 条件熵 的 值最大的属性作为当前系统的分类属性。
     
     
     
     
      
      """

参考：

熵：

https://zh.wikipedia.org/wiki/%E7%86%B5_(%E4%BF%A1%E6%81%AF%E8%AE%BA)#.E7.86.B5.E7.9A.84.E8.AE.A1.E7.AE.97

条件熵：

https://zh.wikipedia.org/wiki/%E6%9D%A1%E4%BB%B6%E7%86%B5

决策树PPT：

http://wenku.baidu.com/link?url=8Z1oRet3uYd-HcRuLXKv-QhgyuKWjaZ5PRFXOzDS_CwiWiVXuVGaMpU96HbbxjZ7SmiXwB8EN9OWPGH_CYmbcAQgpOlr6z2FBRuzkJR5su7

决策树的博文：

http://www.hankcs.com/ml/decision-tree.html

《机器学习实战》

guoguo_dreamfly

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
决策树个人理解

"""香农熵：在信息论中，熵是接收的每条消息中包含的信息的平均量，又被称为信息熵、信源熵、平均自信息量。这里，消息代表来自分布或数据流中的事件、样本或特征。（熵最好理解为不确定性的量度而不是确定性的量度，因为越随机的信源的熵越大。）决策树： 1、计算当前的信息熵HB，计算每个特征的信息熵的期望Hi，选择能使HB-Hi最大的那个特征作为这次的分类特征。(能否理
复制链接

扫一扫