机器学习基础自学笔记——决策树(Decision Tree)

决策树(Decision Tree)

目录

决策树(Decision Tree)

信息熵

条件熵

信息增益

基尼系数

决策树主要优缺点:

剪枝处理

随机森林


本文是本人学习决策树时候的笔记,可能很对地方不是比较专业,主要为去理解相关概念为主~

这是我的第一篇博客,若博客有错误欢迎大家指出~

本博客后续也会不断更新~

信息熵

文献参考引用:

· 知乎:忆臻

· 知乎: 林君

· 知乎:许铁-巡洋舰科技

信息熵概念:

信息熵把信息中排除了冗余信息后的平均(有价值)信息。

即 信息就是用来消除人对这件事的不确定性的——消除熵=获取信息

理解:

在化学中我们引入了熵的概念,用于描述体系或者分子的混乱程度。而如果我们拓展这个概念,将熵理解为描述各类事务的一种混乱程度。我们同样也可以将这个概念应用到信息学中。

   我们知道信息是一种非常复杂而又不确定的概念。我们难以衡量几千字或者一张图片能         传递给我们多少信息,更不用说其中的有用信息。有用信息往往是要根据实际情况、不         同的人和地点等等复杂因素来衡量的。而信息熵就给我们定义了这样一个抽象概念。

信息熵公式:

理解:

   但是通过大量实验以及总结,人们发现往往概率越小的事件发生了那么其价值越高有用信     息越大,而概率越大的事件发生了其有用信息越小。比如,康康小朋友在11.26日晚上吃馒     头作为晚餐,这个一点也不让人奇怪,因为他经常吃;但是哪天他居然一整天呆在宿舍打     游戏,那么闻着可能都会觉得天塌了:怎么可能??!

所以一个具体事件的信息量应该是随着其发生概率递减的。

假设x,y两个事件没有关系,那么这两个事件得到的信息总和h(xy)

    h(xy)=h(x)+h(y)

    那么他们同时发生的概率P(xy)

    P(xy)=P(x)P(y)

   而我们又知道,对数的其中一个运算性质为:

\log_{n}xy=\log_{n}x+\log_{n}y

我们可以猜出h(x)和p(x)可能会有如下的一种关系(没错,你高考数学选择题的本能):

h(x)=-\log _{n}P(x)

(1)其中n一般取2,基于传统的信息论;

(2)由于概率的取值范围是[0,1],所以为了保证信息量是正数,在log函数前加一个负号。

我们可以简单验证一下:

h(xy)=-\log_{n}P(xy) =-\log_{n}[P(x)*P(y)] =-\log_{n}P(x)-\log_{n}P(y)=h(x)+h(y)

没毛病。

对于x这个事件,其发生概率为P(x),所以其有用信息的期望值为:

H(x)=-P(x)\log_{n}P(x)

而对一个更大的事件A,x事件可能就是其中一个事件,就像买了十根士力架只是出门买零食的一小部分一样。那么总共的有用信息期望值为:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值