熵、信息熵、交叉熵、KL散度、交叉熵损失

无脑敲代码，bug漫天飞

已于 2022-05-31 08:23:44 修改

阅读量713

点赞数 1

分类专栏：深度学习文章标签：机器学习人工智能深度学习

于 2022-05-31 08:22:59 首次发布

本文链接：https://blog.csdn.net/qq_40671063/article/details/125057585

版权

深度学习专栏收录该内容

15 篇文章 8 订阅

订阅专栏

1 熵

1. 熵是一个物理概念，表示一个系统的不确定性程度，或系统的混乱程度；

2 信息熵

1. 美国的一个数学家将熵引入信息论中，命名为“香农熵”，或“信息熵”。

熵与信息熵实际上是同一种概念，只是不同领域有不同叫法；

2. 信息熵公式： $H(x) = -\sum_{i=1}^{n}p(x_i)logp(x_i)$

n表示随机变量可能的取值数；x表示随机变量；p(x)表示随机变量x的概率函数；

上述结果，无论log是以几为底，对结果没有影响；

3 相对熵

1. 相对熵就是KL散度

KL散度：是两个概率分布间差异的非对称性度量；

KL散度用来衡量同一个随机变量的两个不同分布之间的距离。

KL散度公式：

$D_{KL} (p||q)= \sum_{i=1}^{n}p(x_i)log(\frac{p(x_i)}{q(x_i)})$

特性：非对称性： $D_{KL}(p||q) != D_{KL}(q||p)$ ，除非概率分布完全一样才想等；

非负性：用于大于零，除非两个概率相等；

KL散度与信息熵是两种不同的信息。

2. KL散度公式变形：

KL散度 = 交叉熵-信息熵；

4 交叉熵

1. 交叉熵：主要用于度量统一个随机变量X的预测分布Q与真实分布P之间的差距；

公式：

$H(P,Q) = -\sum_{i=1}^{n}p(x_i)logq(x_i)$

预测越准确，交叉熵越小；

交叉熵只与真实标签的预测概率值有关；

2. 交叉熵最简化公式

$CrossEntropy(p,q) = -logq(c_i)$

3. 交叉熵二分类公式

$H(P,Q) = -\sum_{i=1}^{2}p(x_i)logq(x_i)=-(p(x_1)logq(x_i)+p(x_2)logq(x_2))$

$= -(plogq + (1-p)log(1-q))$

p(x)是真实标签的概率分布，q(x)是预测的概率分布；

4. 如果有真实分布，使用交叉熵作为损失函数；如果没有真实分布，使用KL散度作为损失函数。

程序计算交叉熵

entroy =nn.crossEntropy();
input = torch.Tensor([[-0.7715,-0.6205,-0.2562]])
target = torch.Tensor([0])
output = entropy(input,ouput)

上述程序的计算，也就是用softmax计算三个输入占的概率值，然后标签是（1，0，0），所以再利用交叉熵最简公式就可以计算出来。

5 Softmax

1. softMax是将数字转化成概率的工具

softmax公式： $S_i = \frac{e^{z_i}}{\sum_{i=1}^{n}e^{z_i}}$

6 Sigmoid

1. sigmoid也叫logistic函数，取值范围为(0,1)，常用作激活函数，常被用于二分类。

sigmoid公式： $S(x) = \frac{1}{1+e^{-x}}$

参考：一个视频彻底搞懂交叉熵、信息熵、相对熵、KL散度、交叉熵损失、交叉熵损失函数、softmax函数、softmax求概率、各种熵的公式_哔哩哔哩_bilibili

无脑敲代码，bug漫天飞

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
熵、信息熵、交叉熵、KL散度、交叉熵损失

熵、信息熵、交叉熵、KL散度、交叉熵损失、Softmax、Sigmoid
复制链接

扫一扫

专栏目录

熵、信息熵、交叉熵、KL散度、交叉熵损失

1 熵

2 信息熵

3 相对熵

4 交叉熵

5 Softmax

6 Sigmoid

“相关推荐”对你有帮助么？