机器学习基础自学笔记——决策树(Decision Tree)

康康好老啊

已于 2022-06-25 19:30:58 修改

阅读量681

点赞数 3

分类专栏： Machine Learning Basic

于 2022-06-25 19:25:16 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_61787307/article/details/125462191

版权

决策树信息熵基尼系数剪枝随机森林

关键词由CSDN通过智能技术生成

决策树(Decision Tree)

目录

决策树(Decision Tree)

决策树主要优缺点：

本文是本人学习决策树时候的笔记，可能很对地方不是比较专业，主要为去理解相关概念为主~

这是我的第一篇博客，若博客有错误欢迎大家指出~

本博客后续也会不断更新~

信息熵

文献参考引用：

· 知乎：忆臻

· 知乎: 林君

· 知乎：许铁-巡洋舰科技

信息熵概念：

信息熵把信息中排除了冗余信息后的平均（有价值）信息。

即信息就是用来消除人对这件事的不确定性的——消除熵=获取信息

理解：

在化学中我们引入了熵的概念，用于描述体系或者分子的混乱程度。而如果我们拓展这个概念，将熵理解为描述各类事务的一种混乱程度。我们同样也可以将这个概念应用到信息学中。

我们知道信息是一种非常复杂而又不确定的概念。我们难以衡量几千字或者一张图片能传递给我们多少信息，更不用说其中的有用信息。有用信息往往是要根据实际情况、不同的人和地点等等复杂因素来衡量的。而信息熵就给我们定义了这样一个抽象概念。

信息熵公式：

理解：

但是通过大量实验以及总结，人们发现往往概率越小的事件发生了那么其价值越高有用信息越大，而概率越大的事件发生了其有用信息越小。比如，康康小朋友在11.26日晚上吃馒头作为晚餐，这个一点也不让人奇怪，因为他经常吃；但是哪天他居然一整天呆在宿舍打游戏，那么闻着可能都会觉得天塌了：怎么可能？？！

所以一个具体事件的信息量应该是随着其发生概率递减的。

假设x,y两个事件没有关系，那么这两个事件得到的信息总和h(xy)

$h(xy)=h(x)+h(y)$

那么他们同时发生的概率P(xy)

$P(xy)=P(x)P(y)$

而我们又知道，对数的其中一个运算性质为：

$\log_{n}xy=\log_{n}x+\log_{n}y$

我们可以猜出h(x)和p(x)可能会有如下的一种关系（没错，你高考数学选择题的本能）：

$h(x)=-\log _{n}P(x)$

（1）其中n一般取2，基于传统的信息论；

（2）由于概率的取值范围是[0,1]，所以为了保证信息量是正数，在log函数前加一个负号。

我们可以简单验证一下：

$h(xy)=-\log_{n}P(xy) =-\log_{n}[P(x)*P(y)] =-\log_{n}P(x)-\log_{n}P(y)=h(x)+h(y)$

没毛病。

对于x这个事件，其发生概率为P(x)，所以其有用信息的期望值为：

$H(x)=-P(x)\log_{n}P(x)$

而对一个更大的事件A，x事件可能就是其中一个事件，就像买了十根士力架只是出门买零食的一小部分一样。那么总共的有用信息期望值为：

最低0.47元/天解锁文章

康康好老啊

关注

3
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。