信息熵、基尼指数的理解

CY_TEC

于 2022-05-03 12:05:34 发布

阅读量784

点赞数

分类专栏：机器学习文章标签：概率论

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/CY_TEC/article/details/124553224

版权

信息熵基尼指数分类不确定性数据纯度决策树

关键词由CSDN通过智能技术生成

机器学习专栏收录该内容

30 篇文章

订阅专栏

信息熵

公式： $-\sum_{i = 1}^K p_i log_2 p_i$
$p_i$ 就是类别 $i$ 出现的概率， $log_2 p_i$ 是用二进制表示该概率值所需要的 bit 位数，那么熵的含义就是表示所有类别概率所需要的 bit 位数的期望值。所以熵值越大，就表示需要约多的位数来表示。如果 log 的底一样，那么熵值的相对大小也不会变化。

基尼指数

公式： $\sum p_i * (1 - p_i) = 1 - \sum p_i^2$
参考博客里面有一句话说的很好：“基尼指数的意义是从数据集D中随机抽取两个样本类别标识不一致的概率。”

参考

https://blog.csdn.net/bitcarmanlee/article/details/88808873

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。