特征选择之互信息(mutual information)算法思想及其python代码实现

本文详细介绍了互信息的概念及其在特征选择中的作用,作为过滤式特征选择的一种方法,互信息用于衡量特征与标签之间的依赖程度。通过实例解释了互信息的计算过程,并提供了使用sklearn库及自定义代码实现互信息的Python代码。互信息值越大,表明特征与标签的相关性越强,更适合用于模型训练。
摘要由CSDN通过智能技术生成

一、算法思想

1、特征选择

特征选择是去除无关紧要庸余的特征,仍然还保留其他原始特征,从而获得特征子集,从而以最小的性能损失更好地描述给出的问题。

特征选择方法可以分为三个系列:过滤式选择、包裹式选择和嵌入式选择的方法 。

本文介绍的互信息(mutual information)即为过滤式的特征选择算法。

关于过滤式的特征算法系列,可参考我的其他文章。
特征选择之卡方检验
特征选择之Fisher Score

2、互信息

互信息介绍

定义:两个随机变量的互信息(mutual information)是变量间相互依赖性的量度。

如何理解相互依赖性的量度?

互信息度量两个随机变量共享的信息——知道随机变量X,对随机变量Y的不确定性减少的程度(或者知道随机变量Y,对随机变量X的不确定性减少的程度),用 I(X;Y)表示。

还是很抽象?举个例子吧。

随机变量X表示一个均衡的六面骰子投掷出的点数,Y表示X的奇偶性。这里我们设X是偶数时,Y=0;X是奇数时,Y=1。

如果我们知道X,如X=1,则可以判断Y=1。(失去Y=0这一信息的可能性,Y的不确定性信息减少了)

同样的,如果我们知道Y=0,则可以判断X=2或4或6。(失去X=1或3或5这一信息的可能性,X的不确定性信息减少了)

因此,我们说随机变量X和Y之间存在互信息。

ok,这里我们还需要理解什么叫做随机变量的不确定性
因此,我们需要引入的概念。

熵的概念起源于物理学,用于度量一个热力学系统的无序程度。在信息论中,熵是对不确定性的测量,用H表示。对于随机变量X:
H ( X ) = − ∑ x p ( x ) log ⁡ p ( x ) H(X)=-\sum_{x} p(x) \log p(x) H(X)=xp(x)logp(x)

我们可以通过下面这张互信息的韦恩图来形象的理解互信息和熵的关系与区别:
互信息的韦恩图
关于这张图的理解:
互信息韦恩图的理解
可参考这个视频↓
参考视频

最后,我们通过一系列的数学公式的推导,得到以下互信息的定义式:
I ( X ; Y ) = ∑ x , y p ( x , y ) log ⁡ p ( x , y ) p ( x ) p ( y ) I(X ; Y)=\sum_{x, y} p(x, y) \log \frac{p(x, y)}{p(x) p(y)} I(X;Y)=x,yp(x,y)logp(x)p(y)p(x,y)

其中p(x)表示X= x i x_i xi出现的概率,p(y)表示Y= y i y_i yi出现的概率。p(x,y)表示X= x i x_i xi,Y= y i y_i yi同时出现的概率,即联合概率。
其中log的底数可以为e或者2,若为2的话,互信息的单位就是比特。

特征选择中的互信息

由上文所述, 特征选择是去除无关紧要庸余的特征,仍然还保留其他原始特征,从而获得特征子集,从而以最小的性能损失更好地描述给出的问题。

这里我们将样本中的特征可以对应为随机变量X(Y),标签类对应随机变量Y(X)。 这其实是由于互信息具有的一个重要的性质——对称性:
I ( X ; Y ) = I ( Y ; X ) I(X ; Y) = I(Y ; X) I(X;Y)=I(Y;X)

我们还是实际举一个例子吧。

假入样本中的某个特征对应列表为X=[0,0,1] ,标签类对应列表为Y=[1,1,0]。

那么我们可以知道p(X=0)= 2 3 \frac{2}{3} 32,p(X=1)= 1 3 \frac{1}{3} 31。同样p(Y=0)= 1 3 \frac{1}{3} 31,p(Y=1)= 2 3 \frac{2}{3} 32

X与Y一一对应,有(0,1),(0,1),(1,0)三种情况,那么
p(X=0,Y=1)= 2 3 \frac{2}{3} 32 ,p(X=1,Y=0)= 1 3 \frac{1}{3} 31

由上面推导的互信息公式:
I ( X ; Y ) = ∑ x , y p ( x , y ) log ⁡ p ( x , y ) p ( x ) p ( y ) I(X ; Y)=\sum_{x, y} p(x, y) \log \frac{p(x, y)}{p(x) p(y)} I(X;Y)=x,yp(x,y)logp(x)p(y)p(x,y)

带入,相应的p(x),p(y),p(x,y)求得值。这里我们取log的底为自然底数e。

那么这个例子中 I ( X ; Y ) = p ( x = 0 , y = 1 ) log ⁡ p ( x = 0 , y = 1 ) p ( x = 0 ) p ( y = 1 ) I(X ; Y)= p(x=0, y=1) \log \frac{p(x=0, y=1)}{p(x=0) p(y=1)} I(X;Y)=p(x=0,y=1)logp(x=0)p(y=1)p(x=0,y=1) + p ( x = 1 , y = 0 ) log ⁡ p ( x = 1 , y = 0 ) p ( x = 1 ) p ( y = 0 ) p(x=1, y=0) \log \frac{p(x=1, y=0)}{p(x=1) p(y=0)} p(x=1,y=0)logp(x=1)p(y=0)p(x=1,y=0) =
2 3 \frac{2}{3} 32 * ln( 2 / 3 2 / 3 ∗ 2 / 3 ) \frac{2/3}{2/3*2/3}) 2/32/32/3) + 1 3 \frac{1}{3} 31 * ln( 1 / 3 1 / 3 ∗ 1 / 3 ) \frac{1/3}{1/3*1/3}) 1/31/31/3) ≈ 0.6365

仔细看看其中的计算规则,你就能明白互信息的计算。

其次,在特征选择中,互信息是特征与标签类相互依赖程度的度量。由前面的定义可知,互信息值越大,那么特征与标签类相互的依赖程度越大。即,某个特征和某标签类的互信息越大,说明知道某个特征后,某个标签类的不确定性减少得更多,说明两者“相关性越强”,反之亦然。

简单来说,特征与标签类的互信息越大,特征与标签“相关性越强”,这个特征更有可能属于此类标签。 反之的极端情况是,若两者互信息为0,说明两者独立,几乎没什么关系。

二、代码实现

1、python调用sklearn包

python里面的sklearn包里面有metrics.mutual_info_score()函数。

它的参数为两个列表sample,label。由上文互信息的对称性可知,sample与label是对称的,可互换。且这个函数的log以自然底数e为底。

from sklearn import metrics
label=[0,0,1]
sample=[1,1,0]
print(metrics.mutual_info_score(label,sample))

输出为互信息的值:0.6365141682948129

2、自己实现的代码

话不多说,上代码。


# 针对标签样本都是二值(0和1)的互信息,label和sample是对称的
#eg:label=[0,1,0]   sample=[1,0,1]
#return 0.6365141682948128
import numpy as np
import math
def binary_mutula_information(label, sample):
    # 用字典来计数
    d = dict()
    # 统计其中00,01,10,11各自的个数
    binary_mi_score = 0.0
    label = np.asarray(label)
    sample = np.asarray(sample)
    if label.size != sample.size:
        print('error!input array length is not equal.')
        exit()

    # np.sum(label)/label.size表示1在label中的概率,
    # 前者就是0在label中的概率
    # 这里需要用总的数目减去1的数目再除以总的数目,提高精度
    x = [(label.size - np.sum(label)) / label.size, np.sum(label) / label.size]

    y = [(sample.size - np.sum(sample)) / sample.size, np.sum(sample) / sample.size]

    for i in range(label.size):
        if (label[i], sample[i]) in d:
            d[label[i], sample[i]] += 1
        else:
            d[label[i], sample[i]] = 1

    # 遍历字典,得到各自的px,py,pxy,并求和
    for key in d.keys():
        px = x[key[0]]
        py = y[key[1]]
        pxy = d[key] / label.size
        binary_mi_score = binary_mi_score + pxy * math.log(pxy / (px * py))

    return binary_mi_score
label=[0,0,1]
sample=[1,1,0]
print(binary_mutula_information(label,sample))

输出互信息值:0.6365141682948129

以上代码只是简单的实现了当特征值和标签值为二值0和1的情况,因此输入的参数的值请读者注意。

其实值的大小并不重要,只要能区分是不同的值就行。其实对于sklearn包里面的metrics.mutual_info_score()函数来说,

label=[0,0,1]
sample=[1,1,0]

label=[666,666,999]
sample=[999,999,666]

执行

metrics.mutual_info_score(label,sample)

得到的答案是一样的,读者可自行验证。

后续我会再更新出一般的对于n个值都适用的互信息python实现。

希望本文对你有帮助!

  • 71
    点赞
  • 313
    收藏
    觉得还不错? 一键收藏
  • 12
    评论
特征选择是机器学习中重要的一环,可以帮助我们从原始数据中提取出最具有代表性的特征,提高模型的准确率和泛化能力。下面是一些常用的特征选择算法Python 代码。 1. 方差选择 方差选择是通过方差来判断特征的重要性,方差越大,代表该特征对样本的区分度越大。 ```python from sklearn.feature_selection import VarianceThreshold # 设置方差阈值为0.2 selector = VarianceThreshold(threshold=0.2) # 对数据进行特征选择 X_selected = selector.fit_transform(X) ``` 2. 相关系数 相关系数是通过计算特征与目标变量之间的相关系数来判断特征的重要性,相关系数越大,代表该特征与目标变量之间的关联程度越高。 ```python import numpy as np from sklearn.feature_selection import SelectKBest from scipy.stats import pearsonr # 定义计算相关系数的函数 def calc_pearsonr(X, y): scores, pvalues = [], [] for feature in range(X.shape[1]): score, pvalue = pearsonr(X[:, feature], y) scores.append(score) pvalues.append(pvalue) return (np.array(scores), np.array(pvalues)) # 选择与目标变量相关系数最高的前K个特征 selector = SelectKBest(score_func=calc_pearsonr, k=5) # 对数据进行特征选择 X_selected = selector.fit_transform(X, y) ``` 3. 卡方检验 卡方检验是通过计算特征与目标变量之间的卡方值来判断特征的重要性,卡方值越大,代表该特征与目标变量之间的关联程度越高。 ```python from sklearn.feature_selection import SelectKBest from sklearn.feature_selection import chi2 # 选择与目标变量卡方值最高的前K个特征 selector = SelectKBest(score_func=chi2, k=5) # 对数据进行特征选择 X_selected = selector.fit_transform(X, y) ``` 4. 互信息 互信息是通过计算特征与目标变量之间的互信息来判断特征的重要性,互信息越大,代表该特征与目标变量之间的关联程度越高。 ```python from sklearn.feature_selection import SelectKBest from sklearn.feature_selection import mutual_info_classif # 选择与目标变量互信息最高的前K个特征 selector = SelectKBest(score_func=mutual_info_classif, k=5) # 对数据进行特征选择 X_selected = selector.fit_transform(X, y) ``` 5. Wrapper方 Wrapper方是通过将特征选择看作一个优化问题,通过训练模型来评估每个特征的重要性,并逐步选取最优特征的方。 ```python from sklearn.feature_selection import RFE from sklearn.linear_model import LogisticRegression # 使用逻辑回归作为评估器,选择5个最优特征 estimator = LogisticRegression() selector = RFE(estimator, n_features_to_select=5) # 对数据进行特征选择 X_selected = selector.fit_transform(X, y) ``` 以上是一些常用的特征选择算法Python 代码,可以根据需要选择合适的算法进行特征选择
评论 12
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值