信息熵、KL散度、交叉熵、softmax函数学习小记

电子云与长程纠缠

已于 2023-09-17 22:46:58 修改

阅读量409

点赞数

分类专栏：机器学习文章标签：学习人工智能机器学习神经网络

于 2023-07-09 10:25:33 首次发布

本文链接：https://blog.csdn.net/grayrail/article/details/131619144

版权

机器学习专栏收录该内容

5 篇文章 1 订阅

订阅专栏

1.信息熵

简介：
描述一组样本的不确定程度。

公式：
$H(x)=-\sum_{i=1}^{n} P(x_{i})log P(x_{i})$

例如一组样本：

样本1	国庆假期选择出游的概率	样本2	国庆假期选择出游的概率
张三	0.2	Jack Zhang	0.6
李四	0.2	Eric Li	0.1
王五	0.2	Vicky Wang	0.1
赵六	0.2	Nicholas Zhao	0.1
钱七	0.2	Tsien	0.1

求信息熵：

样本1	样本2
= - (0.2log(0.2) + 0.2log(0.2) + 0.2*log(0.2)) …	= - (0.6log(0.6) + 0.1log(0.1) + 0.1*log(0.1)) …
= - ((0.2 * -0.699) + (0.2 * -0.699) + (0.2 * -0.699)) …	= - ((0.6 * -0.2218) + (0.1 * -1) + (0.1 * -1)) …
= 0.699	= 0.53308

结论：

样本1中的学生选择国庆假期出游的不确定性比较大。

2.交叉熵

简介：
度量预测样本与真实样本之间的差距。NN中最常见的名词之一，但除了会用，还可以再多了解一下。

公式：
$H(P,Q)=-\sum_{i=1}^{n} P(x_{i})log Q(x_{i})$

（注：交叉熵有多种变形公式）

例如一组样本：

预测分类	预测标签( Q )	真实标签( P )
张三国庆去甘肃	0.7	1
张三国庆去青海	0.1	0
张三国庆去宁夏	0.2	0

求交叉熵：

H(P,Q) = -(1Log(0.7) + 0log(0.1) + 0*log(0.2)) = 0.1549

结论：

预测结果越准确，交叉熵越小。

3.KL散度

简介：
描述2个概率分布间的差异或者距离。也是学习GAN时需要了解的重要概念。

公式：
$D_{K,L}(P||Q)=-\sum_{i=1}^{n} P(x_{i})log (\frac{P(x_{i})}{Q(x_{i})})$

特性：

1.非对称性：
$D_{K,L}(P||Q) ≠ D_{K,L}(Q||P)$

2.非负性：
$D_{K,L}(P||Q) > = 0$

3.通过公式变形可知：
KL散度 = 交叉熵-信息熵

我们知道Log(1)=0，分类问题结果往往是one hot形式的，那么上面公式就变成了：
KL散度 = 交叉熵 - 0

所以有时候直接求交叉熵就行了。

4.交叉熵二分类公式

简介：
又名BCE、BinaryCrossEntropy。
二分类即是或者不是两种结果，同时也会得到返回是或者不是的概率，概率值带入该公式求得损失，同时也是GAN运用中用来求得损失函数的公式。

公式：
$H(P,Q)=-\sum_{i=1}^{n} P(x_{i})log Q(x_{i})$

$= - (P (x 1) l o g Q (x 1) + P (x 2) l o g Q (x 2))$
$= - (Pl o g Q + (1 - P) l o g (1 - Q))$

（注：为什么xi可以替换成x1和x2，是因为二分类只有2个分类）

导数（这是chatgpt给的）：
(Q - P) / (Q * (1 - Q))

5.Softmax

简介：
将数字结果转换为概率，所以对于非分类问题的神经网络，要去掉Softmax操作。

公式：
$S_{i} = \frac{e^{zi}}{\sum_{i=1}^{n} e^{zi}}$

这个比较常见，推导就不做了。

电子云与长程纠缠

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
信息熵、KL散度、交叉熵、softmax函数学习小记

对信息熵、KL散度、交叉熵等进行学习的简单笔记
复制链接

扫一扫

专栏目录