机器学习之信息增益(熵和条件熵)

本文转载于:https://blog.csdn.net/chunyun0716/article/details/51289940

要了解信息增益,我们要先知道熵与条件熵的定义。

2.1 熵

熵是无序度的度量,在信息论和统计中,熵表示随机变量不确定性的度量。假设XX是一个取有限值的离散型随机变量,它的概率分布如下: 

P(X=xi)=pi,i=1,2,…,nP(X=xi)=pi,i=1,2,…,n


则随机变量XX的熵定义为: 

H(X)=−∑i=1npilogpiH(X)=−∑i=1npilog⁡pi


若pi=0,定义0log0=0若pi=0,定义0log⁡0=0,从上式中可以看到,熵只依赖于XX的分布,而与XX的取值没有关系。熵越大,随机变量的不确定性就越大。故可以将X的熵记作H(p):X的熵记作H(p):

 

 

H(p)=−∑i=1npilogpiH(p)=−∑i=1npilog⁡pi

 

2.2 条件熵

设有随机变量(X,Y)(X,Y),其联合概率分布为: 

P(X=xi,Y=yj)=pij,i=1,2,…,n;j=i=1,2,…,mP(X=xi,Y=yj)=pij,i=1,2,…,n;j=i=1,2,…,m


条件熵H(Y|X)H(Y|X)表示在已知随机变量XX的条件下随机变量YY的不确定性。随机变量XX给定的条件下随机变量YY的条件熵H(Y|X)H(Y|X)定义为XX给定条件下YY的条件概率分布的熵对XX的数学期望: 

H(Y|X)=∑i=1npiH(Y|X=xi),pi=P(X=xi),i=1,2,…,nH(Y|X)=∑i=1npiH(Y|X=xi),pi=P(X=xi),i=1,2,…,n


当熵和条件熵中的概率由数据估计得来时,所对应的熵和条件熵称为经验熵和经验条件熵。

 

2.3 信息增益

信息增益表示得知特征XX的信息而使得类YY的信息不确定性减少的程度。 
信息增益 
特征A对训练数据集D的信息增益g(D,A),定义为集合D的经验熵H(D)与特征A给定条件下D的经验条件熵H(D|A)之差:特征A对训练数据集D的信息增益g(D,A),定义为集合D的经验熵H(D)与特征A给定条件下D的经验条件熵H(D|A)之差:

g(D,A)=H(D)−H(D|A)g(D,A)=H(D)−H(D|A)


信息增益大的特征具有更强的分类能力。 
根据信息增益准则进行特征选择的方法是:对训练数据集DD,计算其每个特征的信息增益,并比较它们的大小,选择最大的特征。

 

三、信息增益比

通过信息增益选取特征的时候,存在偏向于选择取值较多的特征的问题。使用信息增益比可以纠正这一问题。

信息增益比 
特征A对训练数据集D的信息增益比gR(D,A)定义为其信息增益g(D,A)与训练数据集D关于特征A的值的熵HA(D)之比,即:特征A对训练数据集D的信息增益比gR(D,A)定义为其信息增益g(D,A)与训练数据集D关于特征A的值的熵HA(D)之比,即:

gR(D,A)=g(D,A)HA(D)HA(D)=−∑i=1n|Di||D|log2|Di||D|gR(D,A)=g(D,A)HA(D)HA(D)=−∑i=1n|Di||D|log2⁡|Di||D|


n 是特征A取值的个数。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值