学习决策树必须要了解的信息论知识

最新推荐文章于 2024-10-13 22:47:48 发布

cz? 帅哥:null

最新推荐文章于 2024-10-13 22:47:48 发布

阅读量198

点赞数 6

文章标签：决策树算法机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/cghhbvcgjb/article/details/141899924

版权

熵

系统越有序，熵值越低；系统越混乱或者分散，熵值越高

信息熵

从信息的完整性上进行的描述：当系统的有序状态一致时，数据越集中的地方熵值越小；数据越分散的地方熵值越大

从信息的有序性上进行的描述：当数据量一致时，系统越有序，熵值越低；系统越混乱或者分散，熵值越高。

信息熵是度量样本集合纯度最常用的一种指标。

信息增益

以某特征划分数据集前后的熵的差值。熵越大，样本的不确定性越大。因此可以使用划分前后集合熵的差值来衡量使用当前特征对于样本集合D划分的好坏

信息增益 = entroy(前) - entroy(后)

所以可以得到信息增益的计算公式

信息增益率

信息增益率是由信息增益和属性a对应的固有值做除法求的

信息增益上面已经说了怎么求了

固有值用下面的公式求

基尼值和基尼指数

基尼值：从数据集D中随机抽取两个样本，其类别标记不一致的概率

基尼值越小，数据集D的纯度越高

计算基尼值时只有两种类别（对于有三种类别的，分为aa和其他、bb和其他、cc和其他）

基尼指数：一般选择使划分后基尼指数最小的属性作为最优化分属性

cz? 帅哥:null

关注

6
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。