熵与交叉熵

1.熵的直观解释

如果熵比较大,意味着这一信息有较多的可能状态,相应的每个状态的可能性比较低;因此每当来了一个新的信息,我们很难对其作出准确预测,即有着比较大的混乱程度/不确定性/不可预测性。并且当一个罕见的信息到达时,比一个常见的信息有着更多的信息量,因为它排除了别的很多的可能性,告诉了我们一个确切的信息。在天气的例子中,Rainy发生的概率为12.5%,当接收到该信息时,我们减少了87.5%的不确定性(Fine,Cloudy,Snow);如果接收到Fine(50%)的消息,我们只减少了50%的不确定性。

已知一个离散变量 i 的概率分布P(i),熵的公式可以表示为:
在这里插入图片描述
下面用一些示例来清晰表达

a = torch.full([4], 0.25)
entropy = -(a * torch.log2(a)).sum()
print(entropy)
a = torch.tensor([0.1, 0.1, 0.1, 0.7])
entropy = -(a * torch.log2(a)).sum()
print(entropy)
a = torch.tensor([0.001, 0.001, 0.001, 0.997])
entropy = -(a * torch.log2(a)).sum()
print(entropy)

由结果可以看出,熵越大,代表了不确定性越大,比如第一个示例,4个变量的概率都是1/4,就不确定究竟会取到哪一个。最后一个示例中,每个变量概率相差很大,最后一个变量概率达到了0.997,就能够非常确定取到该变量。
在这里插入图片描述

2.交叉熵

交叉熵使用H(P,Q)表示,意味着使用P计算期望,使用Q计算编码长度;所以H(P,Q)并不一定等于H(Q,P),除了在P=Q的情况下,H(P,Q) = H(Q,P) 。有一点很微妙但很重要:对于期望,我们使用真实概率分布P来计算;对于编码长度,我们使用假设的概率分布Q来计算,因为它是预估用于编码信息的。因为熵是理论上的平均最小编码长度,所以交叉熵只可能大于等于熵。换句话说,如果我们的估计是完美的,即Q=P,那么有H(P,Q) = H( P),否则,H(P,Q) > H( P)。

交叉熵的公式如下图所示:

在这里插入图片描述

下面用一些示例来清晰表达

from torch.nn import functional as F
x = torch.randn(1, 4)
w = torch.randn(3, 4)
logits = x@w.t()
pred = F.softmax(logits, dim=1)
pred_log = torch.log(pred)  # ln(pred)
print(pred_log)  # 此处的pred_log指的是logq(x)
print(F.nll_loss(pred_log,torch.tensor([2])))  # p(x)是[0,0,1]
print(F.cross_entropy(logits, torch.tensor([2])))

如果使用F.cross_entropy函数,第一个参数不需要经过softmax和log函数。
如果使用F.nll_loss函数,第一个参数需要经过softmax和log函数。

在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值