机器学习之信息增益（熵和条件熵）

最新推荐文章于 2024-06-29 21:13:07 发布

余康-数据研究，足球迷弟

最新推荐文章于 2024-06-29 21:13:07 发布

阅读量5.8k

点赞数

分类专栏：机器学习

机器学习专栏收录该内容

9 篇文章 0 订阅

订阅专栏

本文转载于：https://blog.csdn.net/chunyun0716/article/details/51289940

要了解信息增益，我们要先知道熵与条件熵的定义。

2.1 熵

熵是无序度的度量，在信息论和统计中，熵表示随机变量不确定性的度量。假设XX是一个取有限值的离散型随机变量，它的概率分布如下：

P(X=xi)=pi,i=1,2,…,nP(X=xi)=pi,i=1,2,…,n

则随机变量XX的熵定义为：

H(X)=−∑i=1npilogpiH(X)=−∑i=1npilog⁡pi

若pi=0，定义0log0=0若pi=0，定义0log⁡0=0,从上式中可以看到，熵只依赖于XX的分布，而与XX的取值没有关系。熵越大，随机变量的不确定性就越大。故可以将X的熵记作H(p):X的熵记作H(p):

H(p)=−∑i=1npilogpiH(p)=−∑i=1npilog⁡pi

2.2 条件熵

设有随机变量(X,Y)(X,Y),其联合概率分布为：

P(X=xi,Y=yj)=pij,i=1,2,…,n;j=i=1,2,…,mP(X=xi,Y=yj)=pij,i=1,2,…,n;j=i=1,2,…,m

条件熵H(Y|X)H(Y|X)表示在已知随机变量XX的条件下随机变量YY的不确定性。随机变量XX给定的条件下随机变量YY的条件熵H(Y|X)H(Y|X)定义为XX给定条件下YY的条件概率分布的熵对XX的数学期望：

H(Y|X)=∑i=1npiH(Y|X=xi),pi=P(X=xi),i=1,2,…,nH(Y|X)=∑i=1npiH(Y|X=xi),pi=P(X=xi),i=1,2,…,n

当熵和条件熵中的概率由数据估计得来时，所对应的熵和条件熵称为经验熵和经验条件熵。

2.3 信息增益

信息增益表示得知特征XX的信息而使得类YY的信息不确定性减少的程度。
信息增益
特征A对训练数据集D的信息增益g(D,A)，定义为集合D的经验熵H(D)与特征A给定条件下D的经验条件熵H(D|A)之差：特征A对训练数据集D的信息增益g(D,A)，定义为集合D的经验熵H(D)与特征A给定条件下D的经验条件熵H(D|A)之差：

g(D,A)=H(D)−H(D|A)g(D,A)=H(D)−H(D|A)

信息增益大的特征具有更强的分类能力。
根据信息增益准则进行特征选择的方法是：对训练数据集DD，计算其每个特征的信息增益，并比较它们的大小，选择最大的特征。

三、信息增益比

通过信息增益选取特征的时候，存在偏向于选择取值较多的特征的问题。使用信息增益比可以纠正这一问题。

信息增益比
特征A对训练数据集D的信息增益比gR(D,A)定义为其信息增益g(D,A)与训练数据集D关于特征A的值的熵HA(D)之比，即:特征A对训练数据集D的信息增益比gR(D,A)定义为其信息增益g(D,A)与训练数据集D关于特征A的值的熵HA(D)之比，即:

gR(D,A)=g(D,A)HA(D)HA(D)=−∑i=1n|Di||D|log2|Di||D|gR(D,A)=g(D,A)HA(D)HA(D)=−∑i=1n|Di||D|log2⁡|Di||D|

n 是特征A取值的个数。

余康-数据研究，足球迷弟

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。