熵与交叉熵

最新推荐文章于 2024-03-26 10:12:40 发布

scarlet witcher

最新推荐文章于 2024-03-26 10:12:40 发布

阅读量413

点赞数

本文链接：https://blog.csdn.net/taoyc888888/article/details/119138917

版权

1.熵的直观解释

如果熵比较大，意味着这一信息有较多的可能状态，相应的每个状态的可能性比较低；因此每当来了一个新的信息，我们很难对其作出准确预测，即有着比较大的混乱程度/不确定性/不可预测性。并且当一个罕见的信息到达时，比一个常见的信息有着更多的信息量，因为它排除了别的很多的可能性，告诉了我们一个确切的信息。在天气的例子中，Rainy发生的概率为12.5%，当接收到该信息时，我们减少了87.5%的不确定性(Fine,Cloudy,Snow)；如果接收到Fine(50%)的消息，我们只减少了50%的不确定性。

已知一个离散变量 i 的概率分布P(i)，熵的公式可以表示为：
在这里插入图片描述
下面用一些示例来清晰表达

a = torch.full([4], 0.25)
entropy = -(a * torch.log2(a)).sum()
print(entropy)
a = torch.tensor([0.1, 0.1, 0.1, 0.7])
entropy = -(a * torch.log2(a)).sum()
print(entropy)
a = torch.tensor([0.001, 0.001, 0.001, 0.997])
entropy = -(a * torch.log2(a)).sum()
print(entropy)

由结果可以看出，熵越大，代表了不确定性越大，比如第一个示例，4个变量的概率都是1/4，就不确定究竟会取到哪一个。最后一个示例中，每个变量概率相差很大，最后一个变量概率达到了0.997，就能够非常确定取到该变量。
在这里插入图片描述

2.交叉熵

交叉熵使用H(P,Q)表示，意味着使用P计算期望，使用Q计算编码长度；所以H(P,Q)并不一定等于H(Q,P)，除了在P=Q的情况下，H(P,Q) = H(Q,P) 。有一点很微妙但很重要：对于期望，我们使用真实概率分布P来计算；对于编码长度，我们使用假设的概率分布Q来计算，因为它是预估用于编码信息的。因为熵是理论上的平均最小编码长度，所以交叉熵只可能大于等于熵。换句话说，如果我们的估计是完美的，即Q=P，那么有H(P,Q) = H( P)，否则，H(P,Q) > H( P)。

交叉熵的公式如下图所示：

在这里插入图片描述

下面用一些示例来清晰表达

from torch.nn import functional as F
x = torch.randn(1, 4)
w = torch.randn(3, 4)
logits = x@w.t()
pred = F.softmax(logits, dim=1)
pred_log = torch.log(pred)  # ln(pred)
print(pred_log)  # 此处的pred_log指的是logq（x）
print(F.nll_loss(pred_log,torch.tensor([2])))  # p(x)是[0,0,1]
print(F.cross_entropy(logits, torch.tensor([2])))

如果使用F.cross_entropy函数，第一个参数不需要经过softmax和log函数。
如果使用F.nll_loss函数，第一个参数需要经过softmax和log函数。

在这里插入图片描述

scarlet witcher

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
熵与交叉熵

1.熵的直观解释如果熵比较大，意味着这一信息有较多的可能状态，相应的每个状态的可能性比较低；因此每当来了一个新的信息，我们很难对其作出准确预测，即有着比较大的混乱程度/不确定性/不可预测性。并且当一个罕见的信息到达时，比一个常见的信息有着更多的信息量，因为它排除了别的很多的可能性，告诉了我们一个确切的信息。在天气的例子中，Rainy发生的概率为12.5%，当接收到该信息时，我们减少了87.5%的不确定性(Fine,Cloudy,Snow)；如果接收到Fine(50%)的消息，我们只减少了50%的不确定性
复制链接

扫一扫