信息熵,信息增益，基尼指数

qq_22562151

于 2017-05-23 11:13:37 发布

阅读量6.1k

点赞数

分类专栏：模式识别

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_22562151/article/details/72637951

版权

模式识别专栏收录该内容

4 篇文章 0 订阅

订阅专栏

信息熵：是度量样本集合纯度最常用的一种指标。

公式表达：假定当前样本集合D中第k类样本所占的比例为pk（k=1,2...,n）,则D的信息熵定义为：Ent(D)=-ξpklog2 pk(k=1,2,..n)。Ent(D)的值越小，则D的纯度越高。（公式的具体理解如下）

1.每个符号的自信息量：I（ai）=log(1/pi)（ai是第i个变量的取值，pi是第i个变量取值为ai的概率。一般情况，我们用概率的倒数的对数函数来表示某一件事（某一符号）出现所带来的信息量）

2.符号集的平均信息量就是用信息熵来度量。信息熵：信源的平均信息量（概率平均）。H(x)=E[I(xi)]=E[log2 1/p(xi)]=-ξp(xi)log2 p(xi)(i=1,2,..n)--信源的每个符号所提供的平均信息量。（http://doc.mbalib.com/view/03becbac4f2a2c78927c2a12eb2831e6.html）

3.期望值的计算：　设是随机变量的函数。

是离散型随机变量，它的概率分布为
。
　　2° 是连续型随机变量，它的概率密度为，则有
。

　　关于二维随机变量函数的数学期望，也有如下类似定理（http://www.tyrtvu.cn/page/wangyekejian/yygltj/yygltj4/15/htm/1_2.html）

信息熵---》信息增益：著名的ID3决策树学习算法就是以信息增益为准则来选择划分属性。（信息增益越大，”纯度提升“越大）

公式表达：Gain(D,a)=Ent(D)-ξ|Dv|/|D|Ent(Dv)

基尼指数：CART决策树使用“基尼指数”来选择划分属性。我们在候选集合A中，选择那个使得划分后基尼指数最小的属性作为最优划分属性。

数据集D的纯度可用基尼值来度量：Gini(D)=1-ξpk2;基尼值反映了从数据集D中随机抽取两个样本，其类别标记不一致的概率。因此，基尼值越小，数据集D的纯度越高。

公式表达：属性a的基尼指数定义为，Gini_index(D,a)=ξ|Dv|/|D|Gini(Dv)

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
信息熵,信息增益，基尼指数

信息熵：是度量样本集合纯度最常用的一种指标。公式表达：假定当前样本集合D中第k类样本所占的比例为pk（k=1,2...,n）,则D的信息熵定义为：Ent(D)=-ξpklog2 pk(k=1,2,..n)。Ent(D)的值越小，则D的纯度越高。（公式的具体理解如下）1.每个符号的自信息量：I（ai）=log(1/pi)（ai是第i个变量的取值，pi是第i个变量取值为ai的概率。一般情况
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。