【深度学习05】交叉熵损失函数

落叶随峰

已于 2022-10-04 21:23:33 修改

阅读量391

点赞数 1

分类专栏：深度学习文章标签：深度学习机器学习人工智能 python 计算机视觉

于 2022-06-17 17:59:33 首次发布

本文链接：https://blog.csdn.net/henghuizan2771/article/details/125338160

版权

深度学习专栏收录该内容

5 篇文章 3 订阅

订阅专栏

本文详细介绍了损失函数的作用，包括L1损失，并通过信息论的角度阐述了熵和交叉熵的概念。交叉熵在模型比较中起到关键作用，用于衡量模型预测概率与真实结果的接近程度。此外，还讲解了KL散度作为衡量两个概率分布差异的指标。文章以二分类和多分类问题为例，展示了交叉熵在实际计算中的应用，并给出了PyTorch中的实现方式。

摘要由CSDN通过智能技术生成

文章目录

基本损失函数

损失函数作用

计算出实际输出和目标之间的差距
为我们更新输出提供依据（反向传播）

$\\ target : 30,20,50 \\ loss=|(30-10)|+|(20-10)|+\mid ( 50-10) \mid=70\\ L1loss=70 / 3=23.33$

交叉熵

两个不同的模型比较，需要熵作为中介。比如，黄金和白银比较价值，需要把他们都换算为美元，才能对比

1.信息量

不同的信息，含有不同的信息量，假设下列对阵表中阿根廷的夺冠概率是1/8，A同学告诉我阿根廷夺冠了，那么这个信息量就很大了（因为它包括了阿根廷进了四强，决赛）；B同学告诉我阿根廷进决赛了，那么这个信息量就较小。
假设f(x):= 信息量（:=是定义符），x是信息
- $f （阿根廷夺冠） = f （阿根廷进决赛） + f （阿根廷赢了决赛）$
因为事件越不确定，则其包含的信息量就越多,所以自变量又可以变为事件的概率

则有：

$f （ 1 / 8 ） = f （ 1 / 4 ） + f (1 / 2)$

同时，也必须满足
- $P （阿根廷夺冠） = P (阿根廷进决赛) * P （阿根廷赢得了决赛）$
所以

🚀 $f (P (阿根廷夺冠) * P (阿根廷赢得了决赛)) = f (P (阿根廷进决赛)) + f (P (阿根廷赢得了决赛))$

所以，用表达式中肯定有🌻log

又因为事件发生概率和信息量成反比，所以有 -log

2.熵

🔥熵：一个事件，从原来的不确定到完全确定，有多大的难度。而信息量的期望，就是熵H§

$$ \begin{array}{c} H(P):=E\left(P_{f}\right) \\ =\sum_{i=1}^{m} p_{i} \cdot f\left(p_{i}\right)=\sum_{i=1}^{m} p_{i}\left(-\log _{2} p_{i}\right)=-\sum_{i=1}^{m} p_{i} \cdot \log _{2} p_{i} \end{array} $$

🌈 $P_f$ 是总信息量， $f(p_i)$ 是该事件的信息量， $p_i$ 是该事件发生的概率

交叉熵越小，两个模型就越接近

3.相对熵（KL散度）

$f_Q(q_i)$ 表示Q系统的信息量； $f_P(p_i)$ 是P系统的信息量

$D_KL(P||Q)$ 表示两个系统的相对熵，或者说KL散度

$D_KL(P||Q)$ 以P为基准，去考虑P、Q相差多少

$D_KL(Q||P)$ 表示以Q为基准

$\sum_{i=1}^{m} p_{i} \cdot\left(f_{Q}\left(q_{i}\right)-f_{P}\left(p_{i}\right)\right) \$

$f_{Q}\left(q_{i}\right)-f_{P}\left(p_{i}\right)$ 表示某一事件，在Q系统的信息量，减去P系统的信息量

$\begin{array}{l} \boldsymbol{D}_{\boldsymbol{K} \boldsymbol{L}}(\boldsymbol{P} \| \boldsymbol{Q}) \\ :=\sum_{i=1}^{m} p_{i} \cdot\left(f_{Q}\left(q_{i}\right)-f_{P}\left(p_{i}\right)\right) \\ =\sum_{i=1}^{m} p_{i} \cdot\left(\left(-\log _{2} q_{i}\right)-\left(-\log _{2} p_{i}\right)\right) \\ =\sum_{i=1}^{m} p_{i} \cdot\left(-\log _{2} q_{i}\right)-\sum_{m i=1}^{m} p_{i} \cdot\left(-\log _{2} p_{i}\right) \end{array}$

$\sum_{m i=1}^{m} p_{i} \cdot(-\log _{2} p_{i})$ :P的熵，因为我们把P定做基准了，所以看散度时，只需要考虑 $\sum_{i=1}^{m} p_{i} \cdot\left(-\log _{2} q_{i}\right)$ ,这一部分，就是交叉熵了

二分类问题

交叉熵要包含所有可能的结果，而二分类的结果为：是/否，所以要有 $(1-x_{i}) \cdot \log _{2}\left(1-y_{i}\right)$
$\begin{array}{ll} \boldsymbol{H}(\boldsymbol{P}, \boldsymbol{Q}) & =-\sum_{i=1}^{n}\left(x_{i} \cdot \log _{2} y_{i}+\left(1-x_{i}\right) \cdot \log _{2}\left(1-y_{i}\right)\right) \end{array}$
多分类问题

$KaTeX parse error: Expected 'EOF', got '&' at position 49: …boldsymbol{Q}) &̲ =\sum_{i=1}^{m…$

4.交叉熵

pytorch中的交叉熵有点不太一样，它是以softmax函数作为事件的概率

$w_c$ 是权重

理论很难，使用起来确很简单，就一句代码的事~😎

loss_fn = nn.CrossEntropyLoss() # 交叉熵损失

数学计算

$\mathbf{\mathbb{} } \operatorname{loss}(x, \text { class })=-\log \left(\frac{\exp (x[\text { class }])}{\sum_{j} \exp (x[j])}\right)=-{\color{Purple} } x[\text { class }]+\log \left(\sum_{j} \exp (x[j])\right)$

程序

import torch
import torch.nn as nn
import math

criterion = nn.CrossEntropyLoss()
output = torch.randn(1, 5, requires_grad=True)
label = torch.empty(1, dtype=torch.long).random_(5)
loss = criterion(output, label)

print("网络输出为5类:")
print(output)
print("要计算label的类别:")
print(label)
print("计算loss的结果:")
print(loss)

first = 0
for i in range(1):
    first = -output[i][label[i]]
    print("output：{}".format(output[i]))
    print("label：{}".format(label[i]))
    print("first：{}".format(first))
second = 0
for i in range(1):
    for j in range(5):
        second += math.exp(output[i][j])
        print("second：{}".format(second))
res = 0
res = (first + math.log(second))
print("自己的计算结果：")
print(res)