相对熵(KL散度)
如果对于同一个随机变量X有两个单独的概率分布P ( x )和Q ( x ) 【在机器学习中,常常使用P ( x )来表示样本的真实分布,Q ( x )来表示模型所预测的分布】,则我们可以使用KL散度来衡量这两个概率分布之间的差异。KL散度越小,表示P ( x )与Q ( x )的分布更加接近,可以通过反复训练Q ( x )来使Q ( x )的分布逼近P ( x )。
KL散度 = 交叉熵 - 信息熵
在机器学习训练网络时,输入数据与标签常常已经确定,那么真实概率分布P ( x )也就确定下来了,所以信息熵在这里就是一个常量。由于KL散度的值表示真实概率分布P ( x ) 与预测概率分布Q ( x )之间的差异,值越小表示预测的结果越好,所以需要最小化KL散度,而交叉熵等于KL散度加上一个常量(信息熵),且公式相比KL散度更加容易计算,所以在机器学习中常常使用交叉熵损失函数来计算loss就行了。
交叉熵损失函数、nn.CrossEntropyLoss()
nn.CrossEntropyLoss()
是nn.logSoftmax()
和nn.NLLLoss()
的整合,可以直接使用它来替换网络中的这两个操作,这个函数可以用于多分类问题。
注意:当使用CrossEntropyLoss做损失的时候,我们最后一层不做激活,因为CrossEntropyLoss自带softmax激活
1、API
torch.nn.CrossEntropyLoss(weight=None, size_average=None, ignore_index=- 100, reduce=None, reduction='mean', label_smoothing=0.0)
- weight(Tensor, optional):如果输入这个参数的话,必须是一个1维的tensor,长度为类别数C,每个值对应每一类的权重。【用于不同类别对应的权重不同的情况,一般实例化的时候不需要输入该参数】
- reduction (string, optional) :指定最终的输出类型,默认为’mean’。
2、函数的使用方法
- 传入input以及target即可,但是需要注意两者的格式,具体见第3点。
- 调用的时候需要注意,不能直接调用,注意写的过程中不能直接写loss = nn.CrossEntropyLoss(x_input, x_target),必须要向上面那样先把求交叉熵的库函数定义到一个自己命名的函数再调用,否则会报错。RuntimeError: bool value of Tensor with more than one value is ambiguous
self.loss_fn = nn.CrossEntropyLoss(reduction='none', ignore_index=pad_token_idx)
loss = self.loss_fn(input, target)
3、输入维度<2的情况 + 使用注意事项
- 如果不同类别对应的权重不同,传入的权重参数weight应该是一个1维的tensor。
- 输入的每一类的置信度得分(input)应该是原始的,未经过softmax或者normalized。原因是这个函数会首先对输入的原始得分进行softmax,所以必须保证输入的是每一类的原始得分。不能写成[0.2, 0.36, 0.44]这种softmax之后的或者[0, 1, 0]这种one-hot编码。
- 输入的target也不能是one-hot标签,直接输入每个例子对应的类别编号就行了(0 < target_value < C-1),比如产生的结果数为N*C(N为个数,C为类别数),那么输入的target必须输入一个长度为N的一维tensor(指明每个结果属于哪一类,如[1, 3, 0],函数内部会自动转化为one-hot标签)。
★★ input和target的张量维度和含义
input是二维的shape(预测对象的数量,每个对象所属类别的概率),Target的shape(input的第0维“所有对象对应的真实类别的标签”,)
例子:
- input(2,3):预测2个对象,每个对象分别属于三个类别分别的概率
- target(2,):两个对象真实的类别标签
import torch
import torch.nn as nn
loss_fn = nn.CrossEntropyLoss()
# 方便理解,此处假设batch_size = 1
x_input = torch.randn(2, 3) # 预测2个对象,每个对象分别属于三个类别分别的概率
# 需要的GT格式为(2)的tensor,其中的值范围必须在0-2(0<value<C-1)之间。
x_target = torch.tensor([0, 2]) # 这里给出两个对象所属的类别标签即可,此处的意思为第一个对象属于第0类,第二个我对象属于第2类
loss = loss_fn(x_input, x_target)
print('loss:\n', loss)
--output:
loss:
tensor(0.5060)
4、输入维度>2的情况
上面的例子展示了输入的tensor的维度为2维即shape为(N, C)的计算过程以及写代码中需要注意的点,我们实际用的过程中输入的tensor维度一般大于2,比如一个(B, N, C)的tensor作为输入,下面介绍一下应该怎么写。
首先看官方文档中关于若输入高维tensor的情况介绍。
如果我们输入的数据为(B, N, C),分别对应batch_size、 预测的N个对象、C个类别。根据图中文档的规定,第1维必须是类别数目(注意这里第1维而不是第0维),所以要先把输入换成(B, C, N);我们input的(B, C, N)对应的Target的格式就应该为(B, N)。【对于输入数据是三维的:Target的shape就是input的第0维和第2维】。
总结一下,首先把Input的shape调整为(B, C, N)后,确保Target的输入为(B, N)即可。
import torch
import torch.nn as nn
loss_fn = nn.CrossEntropyLoss()
# 假设batch_size = 2, 预测5个对象,类别C=18。
x_input = torch.randn(2, 5, 18) # (B,N,C)
x_input = x_input.permute(0, 2, 1) # (B,N,C)--->(B,C,N)[2,18,5]
# 根据前面对target的分析,需要的GT格式为(2, 5),其中的值范围必须在0-17之间。
x_target = torch.tensor([[1, 2, 17, 5, 0],
[3, 15, 7, 10, 8]])
loss = loss_fn(x_input, x_target)
print('loss:\n', loss)
总结:
- 交叉熵能够衡量同一个随机变量中的两个不同概率分布的差异程度,在机器学习中就表示为真实概率分布与预测概率分布之间的差异。交叉熵的值越小,模型预测效果就越好。
- 交叉熵在分类问题中常常与softmax是标配,softmax将输出的结果进行处理,使其多个分类的预测值和为1,再通过交叉熵来计算损失。
PyTorch损失函数之交叉熵损失函数nn.CrossEntropyLoss()_交叉熵损失输入_zyoung17的博客-CSDN博客