机器学习系列之（七）决策树

最新推荐文章于 2023-09-12 20:04:27 发布

qq_29566629

最新推荐文章于 2023-09-12 20:04:27 发布

阅读量142

点赞数 1

分类专栏：机器学习

本文链接：https://blog.csdn.net/qq_29566629/article/details/92963368

版权

机器学习专栏收录该内容

19 篇文章 0 订阅

订阅专栏

前言

决策树分类的思想很简单，复杂的是对里面的各种概念的理解和各种学科的交叉，包括信息论、概率论等，还有比如熵、条件熵、信息增益、基尼指数等，下面就先从概念开始进行介绍。

定义

参考下图：
在这里插入图片描述
还是先拿去不去相亲为例，现在有一个女孩，其具有三种特征（白不白，富不富，美不美），刚开始判断她白不白，然后是富不富，最后是美不美，最后得到去、犹豫、不去三种可能中的一个。
这个过程很符合人类的思考方式，但是这个情况很简单，可以根据本能去做划分（或者从另一个角度讲，既然把白放在第一位，证明白对你特别重要），现在考虑一个女孩有一千个特征，让你对一个女孩进行三种可能的选择，现在要把什么特征放在第一位，什么特征放在第二位呢？换句话说，你怎么根据已给的女孩样本去判断特征的重要程度（对结果的影响大小）？这里就得先介绍信息论里关于熵值的一堆概念了。

信息论

1. 信息量

香农他老人家作为一个旷世天才，研究出了信息论这一对后世产生了巨大影响的理论，而这一理论的基础概念就是信息量。
“信息是用来消除随机不确定性的东西”。也就是说衡量信息量大小就看这个信息消除不确定性的程度。

“太阳从东方升起了”这条信息没有减少不确定性。因为太阳肯定从东面升起。这是句废话，换句话说这件事发生的概率是100%，信息量为0。

“吐鲁番下中雨了”（吐鲁番年平均降水量日仅6天）这条信息比较有价值，为什么呢，因为按统计来看吐鲁番明天不下雨的概率为98%（1-6/300），对于吐鲁番下不下雨这件事，首先它是随机不去确定的，这条信息直接否定了发生概率为98%的事件------不下雨，把非常大概率的事情（不下雨）否定了，即消除不确定性的程度很大，所以这条信息的信息量比较大。这条信息的情形发生概率仅为2%但是它的信息量却很大，上面太阳从东方升起的发生概率很大为1，但信息量却很小。
这里还可以举一个例子；比如最近NBA发生的浓眉加入湖人队这一事件，其原来发生的概率特别小，那么如果其发生了，那么带来的信息量就会特别大（我们现在也有所感受，其带来的信息量太大了），与其相似的还有周琦拿到MVP、太阳获得总冠军等事件，那么与之相对应的就是诸如詹姆斯拿到场均25+6，勇士获得总冠军等概率极大的事件，其信息量就很小。

从上面几个例子可以看出：信息量的大小和事件发生的概率成反比。

信息量的表示:
在这里插入图片描述
大家仔细看这个函数，h(x)代表这件事的信息量，p(x)代表这件事发生的概率，这是一个单调递减函数，函数图像如下：

但是大家肯定也注意到了，p(x)是概率，只能取[0,1]之间的某个值，所以是在[0,1]之间的单调递减函数，当一个事件的概率是100%，也就是1时，其信息量为0

2. 信息熵

在高中学化学的时候我们学过熵的概念，熵用来表示一个系统内的混乱程度，放到概率中可以理解为表示一个事件发生各种情况下的确定性，定义为：

信息量度量的是一个具体事件发生了所带来的信息，而熵则是在结果出来之前对可能产生的信息量的期望——考虑该随机变量的所有可能取值，即所有可能发生事件所带来的信息量的期望。即：

qq_29566629

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
机器学习系列之（七）决策树

前言决策树分类的思想很简单，复杂的是对里面的各种概念的理解和各种学科的交叉，包括信息论、概率论等，还有比如熵、条件熵、信息增益、基尼指数等，下面就先从概念开始进行介绍。定义参考下图：还是先拿去不去相亲为例，现在有一个女孩，其具有三种特征（白不白，富不富，美不美），刚开始判断她白不白，然后是富不富，最后是美不美，最后得到去、犹豫、不去三种可能中的一个。这个过程很符合人类的思考方式，但是这...
复制链接

扫一扫

专栏目录