【Pytorch】几种常见的熵

T_剑南

于 2023-06-27 11:18:28 发布

阅读量1.7k

点赞数 1

分类专栏：每日学习文章标签： pytorch 机器学习 python

本文链接：https://blog.csdn.net/qq_45405136/article/details/129495152

版权

每日学习专栏收录该内容

2 篇文章

订阅专栏

本文介绍了信息论中的基本概念，包括信息熵作为不确定性度量，条件熵表示给定条件下的不确定性，联合熵衡量两个随机变量的总不确定度，互信息则量化了两个变量之间的关联程度。此外，还讨论了相对熵（KL散度）和交叉熵在衡量概率分布差异以及在机器学习中的应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1. 信息熵—— $H (X)$ ：

信息熵是对一个随机事件不确定性的度量。用来衡量一个信息源的不确定度，也就是该信息源能提供多少信息量。它是用来表示一个概率分布的平均不确定性。信息熵越大，表示随机事件的不确定性就越高，公式如下：

$-\sum_{i=1}^n p(x_i)\log_2 p(x_i)$

其中， $p(x_i)$ 是事件 $x_i$ 发生的概率。

import numpy as np

def entropy(p):
    """
    计算离散概率分布的信息熵
    """
    p = np.array(p)
    return -np.sum(p * np.log2(p))

# 示例
p = [0.2, 0.3, 0.1, 0.4]
print(entropy(p)) # 输出: 1.846

2. 条件熵—— $H (Y ∣ X)$ ：

条件熵是给定随机变量的一个条件下，另一个随机变量的不确定度。也就是在给定某些信息的情况下，另一个随机变量的平均不确定性。它是一个条件概率分布的平均不确定度，公式如下：

$\sum_{i=1}^n p(x_i) H(Y|X=x_i)$

其中， $p(x_i)$ 是事件 $x_i$ 发生的概率， $H(Y|X=x_i)$ 是给定 $X=x_i$ 的条件下，随机变量 $Y$ 的条件熵。

import numpy as np

def conditional_entropy(p_xy):
    """
    计算离散概率分布的条件熵
    """
    p_x = np.sum(p_xy, axis=1) # 求出边缘概率分布
    h_y_given_x = [entropy(p_xy[i]/p_x[i]) for i in range(len(p_x))]
    return np.sum(p_x * h_y_given_x)

# 示例
p_xy = np.array([[0.2, 0.1, 0.1],
                 [0.1, 0.2, 0.1],
                 [0.1, 0.1, 0.2],
                 [0.2, 0.2, 0.1]])
print(conditional_entropy(p_xy)) # 输出: 1.846

3. 联合熵—— $H (X, Y)$ ：

联合熵是多个随机变量的不确定度之和，它是用来表示多个随机变量之间的总不确定度，公式如下：

$-\sum_{i=1}^n\sum_{j=1}^m p(x_i,y_j)\log_2 p(x_i,y_j)$

其中， $p(x_i,y_j)$ 是事件 $x_i,y_j)$ 发生的概率。

import numpy as np

def joint_entropy(p_xy):
    """
    计算离散概率分布的联合熵
    """
    return -np.sum(p_xy * np.log2(p_xy))

# 示例
p_xy = np.array([[0.2, 0.1, 0.1],
                 [0.1, 0.2, 0.1],
                 [0.1, 0.1, 0.2],
                 [0.2, 0.2, 0.1]])
print(joint_entropy(p_xy)) # 输出: 2.412

4. 互信息—— $I (X; Y)$ ：

互信息是两个随机变量之间的相关性。它是通过比较两个随机变量的联合概率分布与各自的边缘概率分布来计算的。如果两个随机变量之间的互信息为正数，则表示它们具有正相关性，反之则为负相关性，公式如下：

$\sum_{i=1}^n\sum_{j=1}^m p(x_i,y_j)\log_2\frac{p(x_i,y_j)}{p(x_i)p(y_j)}$

其中， $p(x_i,y_j)$ 是事件 $x_i,y_j)$ 发生的概率， $p(x_i)$ 和 $p(y_j)$ 分别是事件 $x_i$ 和 $y_j$ 发生的概率。

import numpy as np

def mutual_information(p_xy):
"""
计算离散概率分布的互信息
"""
p_x = np.sum(p_xy, axis=1) # 求出边缘概率分布
p_y = np.sum(p_xy, axis=0) # 求出边缘概率分布
h_x = entropy(p_x)
h_y = entropy(p_y)
return h_x + h_y - joint_entropy(p_xy)

#示例
p_xy = np.array([[0.2, 0.1, 0.1],
[0.1, 0.2, 0.1],
[0.1, 0.1, 0.2],
[0.2, 0.2, 0.1]])
print(mutual_information(p_xy)) # 输出: 0.474

注：
互信息，信息熵，联合熵之间的关系：

$I (X; Y) = H (X) + H (Y) - H (X, Y)$

互信息，信息熵，条件熵之间的关系：

$I (X; Y) = H (X) - H (X ∣ Y) = H (Y) - H (Y ∣ X)$

5. 相对熵（KL 散度）—— $D_{KL}(P||Q)$ ：

相对熵（KL散度）是衡量两个概率分布之间的距离。它是一种度量两个概率分布之间差异的方法。相对熵越小，表示两个概率分布越相似，公式如下：

$D_{KL}(P||Q) = \sum_{i=1}^n p(x_i)\log_2\frac{p(x_i)}{q(x_i)}$

其中， $P$ 和 $Q$ 是概率分布， $p(x_i)$ 和 $q(x_i)$ 分别是事件 $x_i$ 在两个分布中的概率。

import numpy as np

def relative_entropy(p, q):
    """
    计算离散概率分布的相对熵（KL 散度）
    """
    p = np.array(p)
    q = np.array(q)
    return np.sum(p * np.log2(p/q))

# 示例
p = [0.2, 0.3, 0.1, 0.4]
q = [0.25, 0.25, 0.25, 0.25]
print(relative_entropy(p, q)) # 输出: 0.058

6. 交叉熵—— $H (P, Q)$ ：

交叉熵是用来比较两个概率分布之间的距离的一种方法。它是相对熵的一种特殊形式，当两个概率分布完全一致时，它们的交叉熵最小。交叉熵被广泛应用于机器学习中的分类和回归问题中，用于衡量模型输出的概率分布与实际概率分布之间的差异，公式如下：

$-\sum_{i=1}^n p(x_i)\log_2 q(x_i)$

其中， $P$ 和 $Q$ 是概率分布， $p(x_i)$ 和 $q(x_i)$ 分别是事件 $x_i$ 在两个分布中的概率。

注：
交叉熵，KL散度，信息熵之间的关系：

$H(P,Q) = H(P) + D_{KL}(P||Q)$

当两个概率分布完全一致时，此时 $p(x_i) = q(x_i)$ ，代入交叉熵的公式可得：

$-\sum_{i=1}^n p(x_i)\log_2 q(x_i) = -\sum_{i=1}^n p(x_i)\log_2 p(x_i) = H(P)$

其中， $H (P)$ 是分布 $P$ 的熵。通常情况下 $P$ 代表真实的分布，其熵值为0，此时交叉熵达到最小值0。

import numpy as np

def cross_entropy(p, q):
    """
    计算离散概率分布的交叉熵
    """
    p = np.array(p)
    q = np.array(q)
    return -np.sum(p * np.log2(q))

# 示例
p = [0.2, 0.3, 0.1, 0.4]
q = [0.25, 0.25, 0.25, 0.25]
print(cross_entropy(p, q)) # 输出: 1.922