本文转载于:https://blog.csdn.net/chunyun0716/article/details/51289940
要了解信息增益,我们要先知道熵与条件熵的定义。
2.1 熵
熵是无序度的度量,在信息论和统计中,熵表示随机变量不确定性的度量。假设XX是一个取有限值的离散型随机变量,它的概率分布如下:
P(X=xi)=pi,i=1,2,…,nP(X=xi)=pi,i=1,2,…,n
则随机变量XX的熵定义为:
H(X)=−∑i=1npilogpiH(X)=−∑i=1npilogpi
若pi=0,定义0log0=0若pi=0,定义0log0=0,从上式中可以看到,熵只依赖于XX的分布,而与XX的取值没有关系。熵越大,随机变量的不确定性就越大。故可以将X的熵记作H(p):X的熵记作H(p):
H(p)=−∑i=1npilogpiH(p)=−∑i=1npilogpi
2.2 条件熵
设有随机变量(X,Y)(X,Y),其联合概率分布为:
P(X=xi,Y=yj)=pij,i=1,2,…,n;j=i=1,2,…,mP(X=xi,Y=yj)=pij,i=1,2,…,n;j=i=1,2,…,m
条件熵H(Y|X)H(Y|X)表示在已知随机变量XX的条件下随机变量YY的不确定性。随机变量XX给定的条件下随机变量YY的条件熵H(Y|X)H(Y|X)定义为XX给定条件下YY的条件概率分布的熵对XX的数学期望:
H(Y|X)=∑i=1npiH(Y|X=xi),pi=P(X=xi),i=1,2,…,nH(Y|X)=∑i=1npiH(Y|X=xi),pi=P(X=xi),i=1,2,…,n
当熵和条件熵中的概率由数据估计得来时,所对应的熵和条件熵称为经验熵和经验条件熵。
2.3 信息增益
信息增益表示得知特征XX的信息而使得类YY的信息不确定性减少的程度。
信息增益
特征A对训练数据集D的信息增益g(D,A),定义为集合D的经验熵H(D)与特征A给定条件下D的经验条件熵H(D|A)之差:特征A对训练数据集D的信息增益g(D,A),定义为集合D的经验熵H(D)与特征A给定条件下D的经验条件熵H(D|A)之差:
g(D,A)=H(D)−H(D|A)g(D,A)=H(D)−H(D|A)
信息增益大的特征具有更强的分类能力。
根据信息增益准则进行特征选择的方法是:对训练数据集DD,计算其每个特征的信息增益,并比较它们的大小,选择最大的特征。
三、信息增益比
通过信息增益选取特征的时候,存在偏向于选择取值较多的特征的问题。使用信息增益比可以纠正这一问题。
信息增益比
特征A对训练数据集D的信息增益比gR(D,A)定义为其信息增益g(D,A)与训练数据集D关于特征A的值的熵HA(D)之比,即:特征A对训练数据集D的信息增益比gR(D,A)定义为其信息增益g(D,A)与训练数据集D关于特征A的值的熵HA(D)之比,即:
gR(D,A)=g(D,A)HA(D)HA(D)=−∑i=1n|Di||D|log2|Di||D|gR(D,A)=g(D,A)HA(D)HA(D)=−∑i=1n|Di||D|log2|Di||D|
n 是特征A取值的个数。