特征工程：信息熵、信息增益、信息增益率

最新推荐文章于 2023-01-03 11:58:17 发布

Andy_Shan

最新推荐文章于 2023-01-03 11:58:17 发布

阅读量2.9k

点赞数 2

分类专栏：机器学习文章标签：机器学习特则工程

本文链接：https://blog.csdn.net/Andy_Shan/article/details/77251092

版权

机器学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

信息增益和特征工程

特征工程（feature engineering）中很关键的一个组成部分是特征选择（feature selection）。特征选择是一个重要的“数据预处理”（data preprocessing）过程。从给定的特征集合中选择出相关特征（relevant feature）子集的过程，称为特征选择。
特征选择的过程可以由“子集搜索”（subset search）和“子集评价”（subset evaluation）组成。简单来说，这个过程就是产生一个“候选子集”，评价出它的好坏，基于评价结果产生下一个候选子集，再对其进行评价。持续这个过程，直至无法找到更好的候选子集。
子集搜索的方法有前向搜索、后向搜索、双向搜索等。
评价方式中比较常见的有基于信息增益的评价方式，本文将介绍这种方式，并举出一个例子。

数据

Outlook	Temperature	Humidity	Windy	Play?
sunny	hot	high	false	no
sunny	hot	high	true	no
overcast	hot	high	false	yes
rain	mild	high	false	yes
rain	cool	normal	false	yes
rain	cool	normal	true	no
overcast	cool	normal	true	yes
sunny	mild	high	false	no
sunny	cool	normal	false	yes
rain	mild	normal	false	yes
sunny	mild	normal	true	yes
overcast	mild	high	true	yes
overcast	hot	normal	false	yes
rain	mild	high	true	no

天气预报数据例子

信息熵

信息熵的公式为：

E n t (x) = - \sum i = 1 n P (x i) l o g b P (x i)

$Ent(x) = -\sum_{i=1}^{n}P(x_{i})log_{b}P(x_{i})$
这里定义数据集为

D $D$ 则原始数据集的信息熵为：

E n t (D) = - 5 14 * l o g 2 5 14 - 9 14 * l o g 2 9 14

$Ent(D) = -\frac{5}{14}*log_{2}\frac{5}{14} - \frac{9}{14}*log_{2}\frac{9}{14}$

信息增益

信息增益的公式：

G a i n (A) = E n t (D) - \sum v = 1 v | D v | | D | E n t (D v)

$Gain(A)= Ent(D) - \sum_{v=1}^{v}\frac{|D^{v}|}{|D|}Ent(D^{v})$
假设选择的是outlook特征，则此时根据这一特征D分成了三个子集：

(D 1 | o u t l o o k = s u n n y) (D 2 | o u t l o o k = o v e r c a s t) (D 3 | o u t l o o k = r a i n)

$( D^{1}|outlook=sunny) \\ (D^{2}|outlook=overcast)\\ (D^{3}|outlook=rain)$
分别计算这三个子集的信息熵：

E n t (D 1) = - 3 5 * l o g 2 3 5 - 2 5 * l o g 2 2 5

$Ent(D^{1}) = -\frac{3}{5}*log_{2}\frac{3}{5} - \frac{2}{5}*log_{2}\frac{2}{5}$

E n t (D 2) = - 4 4 * l o g 2 4 4 - 0 4 * l o g 2 0 4

$Ent(D^{2}) = -\frac{4}{4}*log_{2}\frac{4}{4} - \frac{0}{4}*log_{2}\frac{0}{4}$

E n t (D 3) = - 2 5 * l o g 2 2 5 - 3 5 * l o g 2 3 5

$Ent(D^{3}) = -\frac{2}{5}*log_{2}\frac{2}{5} - \frac{3}{5}*log_{2}\frac{3}{5}$
将三个子集的信息熵分别乘以三个子集各自的个数和数据集的总个数的比值再求和：

\sum v = 1 v | D v | | D | E n t (D v) = 5 14 E n t (D 1) + 4 14 E n t (D 2) + 5 14 E n t (D 3)

$\sum_{v=1}^{v}\frac{|D^{v}|}{|D|}Ent(D^{v}) = \frac{5}{14}Ent(D^{1}) + \frac{4}{14}Ent(D^{2}) + \frac{5}{14}Ent(D^{3})$
最后用原始数据的信息熵

Ent(D) $Ent(D)$ 减去上式得到的值，就得到了信息增益。

信息增益率

截止到目前，我们已经得到了一个评价特征是否有效的方法：计算信息增益。当信息增益越大时，说明选择的特征包含的可供分类的信息越多。
然而以上这个结论是要基于一个假设的：所有的特征都是离散型特征，如天气数据表中的数据一样。
当出现连续型数值时，基于信息增益的评价方式将出现问题。
如：现在在天气数据的基础上加上一列特征：day of month

day of month	Outlook	Temperature	Humidity	Windy	Play?
1	sunny	hot	high	false	no
2	sunny	hot	high	true	no
3	overcast	hot	high	false	yes
4	rain	mild	high	false	yes
5	rain	cool	normal	false	yes
6	rain	cool	normal	true	no
7	overcast	cool	normal	true	yes
8	sunny	mild	high	false	no
9	sunny	cool	normal	false	yes
10	rain	mild	normal	false	yes
11	sunny	mild	normal	true	yes
12	overcast	mild	high	true	yes
13	overcast	hot	normal	false	yes
14	rain	mild	high	true	no

此时day of month的信息增益将非常大，因为其为不重复且连续的14个值。
这里就将使用信息增益率来评价，其定义为：

G a i n_r a t i o (D) = G a i n ( D ) I V ( a )

$Gain\_ratio(D) = \frac{Gain(D)}{IV(a)}$
其中，

a $a$ 为特征，

IV(a) $IV(a)$ 为属性

a $a$ 的固有值（intrinsic value）

I V (a) = - \sum v = 1 V | D v | | D | l o g 2 | D v | | D |

$IV(a) = -\sum_{v=1}^{V}\frac{|D^v|}{|D|}log_{2}\frac{|D^v|}{|D|}$
由此可以得出，day of month的

IV $IV$ 也会比较大，导致其信息增益率较低。

信息增益、信息增益率和决策树

决策树有两种很常见的剪枝方法：ID3、C4.5
其中ID3使用信息增益剪枝，选择那些信息增益大的特征机型保留。
C4.5使用的是信息增益率，但是需要注意的是，增益率准则对可取值数目较少的属性有所偏好，因此C4.5算法并不是直接使用信息增益率最大的候选划分属性，而是使用了一个启发式：先从候选划分属性中找出信息增益高于平均水平的属性，在从中选择增益率最高的。