【概率】互信息、和其他特征选择方法的比较

x66ccff

已于 2023-12-27 14:31:55 修改

阅读量1k

点赞数 18

分类专栏：数学文章标签：人工智能

于 2023-12-27 14:17:57 首次发布

本文链接：https://blog.csdn.net/qq_18846849/article/details/135244680

版权

数学专栏收录该内容

12 篇文章 0 订阅

订阅专栏

互信息

互信息(MI)是信息论中的一个概念，衡量一个随机变量包含关于另一个随机变量的信息量。换句话说，它量化了两个变量之间的统计依赖关系。如果两个变量是独立的，它们的互信息为零;如果不是，则互信息将大于零。

在机器学习(ML)的背景下，互信息对于特征选择特别有用，特征选择是为给定模型识别信息量最大的特征的过程。通过评估特征与目标变量之间的互信息，可以根据特征的重要性对其进行排序。与目标变量互信息较高的特征被认为更重要，因为它们共享了更多关于目标的信息，可能对预测目标更有用。

互信息的另一个好处是，它可以捕捉变量之间的任何类型的关系，而不仅仅是线性关联(相关性就是这样)。这使得它成为在复杂数据集上进行特征选择的强大工具，在这些数据集上变量之间的关系可能并不直接。

此外，互信息在ML中用于以下任务:

聚类:在无监督学习中，互信息可以帮助评估聚类的质量，衡量一个聚类中的点被另一个聚类中的点共享了多少信息。
依赖关系建模:它可以用于对图形模型中变量之间的依赖关系建模，例如贝叶斯网络。
表示学习:在深度学习中，互信息可用于学习数据的表示，以捕获分类或回归等任务的显著特征。

互信息是机器学习中的一个通用工具，既可以进行探索性数据分析，也可以提高模型性能。

定义

利用两个离散随机变量 $X$ 和 $Y$ 的联合概率分布 $P (X, Y)$ 以及它们各自的边缘概率分布 $P (X)$ 和 $P (Y)$ 计算它们之间的互信息(MI)。MI的公式如下:

$\sum_{x \in X} \sum_{y \in Y} P(x,y) \log \left(\frac{P(x,y)}{P(x)P(y)}\right)$

其中:

$P (x, y)$ 是 $X$ 和 $Y$ 同时出现的概率。
$P (x)$ 是 $X$ 自身发生的概率。
$P (y)$ 是 $Y$ 自身发生的概率。
-如果我们以比特来测量MI，则对数通常以2为底。

简单的例子

考虑一个简单的例子，其中有两个随机变量 $X$ 和 $Y$ ，它们的联合概率分布如下:

	y =0	y =1
x =0	1/2	0
x =1	0	1/2

在这里， $X$ 和 $Y$ 完全相关: $X = 0$ 当 $Y = 0$ , $X = 1$ 当 $Y = 1$ 。

现在，让我们计算边际概率:

$P (X = 0) = P (X = 0, Y = 0) + P (X = 0, Y = 1) = 1/2 + 0 = 1/2$
$P (X = 1) = P (X = 1, Y = 0) + P (X = 1, Y = 1) = 0 + 1/2 = 1/2$
$P (Y = 0) = P (X = 0, Y = 0) + P (X = 1, Y = 0) = 1/2 + 0 = 1/2$
$P (Y = 1) = P (X = 0, Y = 1) + P (X = 1, Y = 1) = 0 + 1/2 = 1/2$

现在可以计算互信息了:

$\sum_{x \in \{0,1\}} \sum_{y \in \{0,1\}} P(x,y) \log \left(\frac{P(x,y)}{P(x)P(y)}\right)$
$\frac{1}{2} \log \left(\frac{\frac{1}{2}}{\frac{1}{2}\frac{1}{2}}\right) + 0 \log \left(\frac{0}{\frac{1}{2}\frac{1}{2}}\right) + 0 \log \left(\frac{0}{\frac{1}{2}\frac{1}{2}}\right) + \frac{1}{2} \log \left(\frac{\frac{1}{2}}{\frac{1}{2}\frac{1}{2}}\right)$
$\frac{1}{2} \log (2) + \frac{1}{2} \log (2)$
$\frac{1}{2} + \frac{1}{2}$
$\text{ bit}$

涉及 $\log(0)$ 的词条定义为0，这与限制对齐:

$\lim_{p \to 0+} p \log(p) = 0$

在这个简单的示例中， $X$ 和 $Y$ 之间的互信息为1位，这是有意义的，因为知道一个变量的值可以为我们提供关于另一个变量的完整信息。

互信息的界

互信息(MI)上界和下界:

—下限:互信息的最
小值为0。当两个变量是完全独立的，并且知道一个变量的值不能提供关于另一个变量的信息时，就会出现这种情况。

上界:互信息的上界不太直接，因为它取决于个体变量的熵。两个变量之间MI的最大值是它们的个体熵的最小值(H(X))和(H(Y))。换句话说，(MI(X;Y) \leq \min(H(X), H(Y)))。当一个变量是另一个变量的确定性函数时，就会出现这种情况，这意味着知道一个变量就可以获得关于另一个变量的完整信息。

与其他特征选择方法的比较

互信息与其他特征选择方法在以下几个方面有所不同:

与皮尔逊相关:皮尔逊相关度量两个连续变量之间的线性关系，并在-1和1之间有界。它不能很好地捕捉非线性关系。另一方面，互信息可以捕获任何类型的依赖关系，无论是线性的还是非线性的，而且不仅限于连续变量——它也可以用于分类变量。
与其他相关度量:Spearman的秩相关和Kendall的tau是可以捕获单调关系的非参数度量，但像Pearson的一样，它们仍然局限于特定类型的关系，不像相互信息那样普遍。
与方差分析:方差分析(ANOVA)测试组间均值的差异，通常在处理分类输入和连续输出时使用。虽然它可以表明分类变量对连续变量的影响是否具有统计显著性，但它不能量化变量之间共享的信息量。
对卡方检验:卡方检验用于确定两个分类变量之间是否存在显著关联。它不提供变量共享多少信息的量化，而是提供变量之间是否存在关联。
与决策树中的信息增益:这实际上是一个与相互信息相关的概念。在决策树的上下文中，“信息增益”用于分割节点，并基于数据集在属性上被分割后熵的减少(或纯度的增加)。它可以被看作是类和属性之间的相互信息。
与包装方法(例如，向前选择，向后消除):这些方法直接基于它们对给定预测模型的有用性来评估变量的子集。它们是计算密集型的，因为它们需要将模型拟合到不同的特征子集。互信息通常比包装方法计算成本更低，因为它独立于模型评估特征的重要性。
与嵌入式方法(例如LASSO, Ridge回归):这些方法通过在损失函数中添加惩罚项来执行特征选择，作为模型训练过程的一部分。然而，互信息并不与特定的模型绑定，而是用作预处理步骤。

互信息是一种灵活而强大的特征选择工具，因为它不假设变量之间关系的函数形式。它可以帮助选择那些可能被其他只检测特定类型关系的方法遗漏的特征。然而，互信息可能比一些简单的相关度量需要更多的计算量，特别是对于大型数据集和许多特征。

和 Pearson 相关性的关系

皮尔逊相关系数(Pearson correlation coefficient)和互信息(Mutual Information, MI)都是变量之间关联的度量，但它们具有不同的性质和敏感性，这使得MI在某些情况下更普遍适用。以下是为什么在某些情况下，人工智能可以被视为比皮尔逊“更好”或更有信息量的原因: