决策树(Decision Tree)
目录
本文是本人学习决策树时候的笔记,可能很对地方不是比较专业,主要为去理解相关概念为主~
这是我的第一篇博客,若博客有错误欢迎大家指出~
本博客后续也会不断更新~
信息熵
文献参考引用:
· 知乎:忆臻
· 知乎: 林君
信息熵概念:
信息熵把信息中排除了冗余信息后的平均(有价值)信息。
即 信息就是用来消除人对这件事的不确定性的——消除熵=获取信息
理解:
在化学中我们引入了熵的概念,用于描述体系或者分子的混乱程度。而如果我们拓展这个概念,将熵理解为描述各类事务的一种混乱程度。我们同样也可以将这个概念应用到信息学中。
我们知道信息是一种非常复杂而又不确定的概念。我们难以衡量几千字或者一张图片能 传递给我们多少信息,更不用说其中的有用信息。有用信息往往是要根据实际情况、不 同的人和地点等等复杂因素来衡量的。而信息熵就给我们定义了这样一个抽象概念。
信息熵公式:
理解:
但是通过大量实验以及总结,人们发现往往概率越小的事件发生了那么其价值越高有用信 息越大,而概率越大的事件发生了其有用信息越小。比如,康康小朋友在11.26日晚上吃馒 头作为晚餐,这个一点也不让人奇怪,因为他经常吃;但是哪天他居然一整天呆在宿舍打 游戏,那么闻着可能都会觉得天塌了:怎么可能??!
所以一个具体事件的信息量应该是随着其发生概率递减的。
假设x,y两个事件没有关系,那么这两个事件得到的信息总和h(xy)
那么他们同时发生的概率P(xy)
而我们又知道,对数的其中一个运算性质为:
我们可以猜出h(x)和p(x)可能会有如下的一种关系(没错,你高考数学选择题的本能):
(1)其中n一般取2,基于传统的信息论;
(2)由于概率的取值范围是[0,1],所以为了保证信息量是正数,在log函数前加一个负号。
我们可以简单验证一下:
没毛病。
对于x这个事件,其发生概率为P(x),所以其有用信息的期望值为:
而对一个更大的事件A,x事件可能就是其中一个事件,就像买了十根士力架只是出门买零食的一小部分一样。那么总共的有用信息期望值为: