Machine Learning with Scikit-Learn and Tensorflow 6.6 基尼不纯度/熵

最新推荐文章于 2022-07-04 19:25:27 发布

qinhanmin

最新推荐文章于 2022-07-04 19:25:27 发布

阅读量842

点赞数

分类专栏：机器学习

机器学习专栏收录该内容

33 篇文章 0 订阅

订阅专栏

书籍信息
Hands-On Machine Learning with Scikit-Learn and Tensorflow
出版社: O’Reilly Media, Inc, USA
平装: 566页
语种: 英语
ISBN: 1491962291
条形码: 9781491962299
商品尺寸: 18 x 2.9 x 23.3 cm
ASIN: 1491962291

系列博文为书籍中文翻译
代码以及数据下载：https://github.com/ageron/handson-ml

此为6.1得到的决策树

这里写图片描述

默认情况下，scikit-learn的决策树使用基尼不纯度评估结点分裂。通过设置criterion=”entropy”，可以使用熵评估结点分裂。熵度量体系的混乱程度，定义如下：

H i = - \sum k = 1, p i, k \neq 0 n p i, k l o g 2 (p i, k)

$H_i=-\sum_{k=1,p_{i,k}\neq0}^n p_{i,k}log_2(p_{i,k})$
其中

pi,k $p_{i,k}$ 是结点

i $i$ 样本中类别

k $k$ 样本的比例。
如果样本集合只含有特定类别的样本，那么熵是0。
以左下角的结点为例，熵是

−4954log(4954)−554log(554)≈0.31 $-\frac{49}{54}log(\frac{49}{54})-\frac{5}{54}log(\frac{5}{54})\approx0.31$

译者注：
实际上，划分决策树的依据是信息增益，即熵减少的数值。

那么我们应该使用基尼不纯度还是信息增益呢？大部分时候，他们会得到相似的结果。基尼不纯度的速度相对较快，所以被用作默认值。相比之下，基尼不纯度倾向于将频繁出现的类别单独安排在特定分支，熵产生的决策树相对比较平衡。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。