TensorFlow 2.x 信息+熵+交叉熵

最新推荐文章于 2022-02-10 15:44:46 发布

置顶 Arrow

最新推荐文章于 2022-02-10 15:44:46 发布

阅读量614

点赞数

分类专栏： TensorFlow 文章标签：机器学习

本文链接：https://blog.csdn.net/MyArrow/article/details/108826414

版权

10 篇文章 3 订阅

订阅专栏

0. TensorFlow中的对数

信息：量化单个事件的不确定性
信息量直观理解：
- 事件发生的概率越小，信息量越大。即当越不可能的事件发生了，我们获取到的信息量就越大
- 事件发生的概率越大，信息量越小。即越可能发生的事件发生了，我们获取到的信息量就越小
信息量数学表示
- $P (x)$ ：表示事件 $x$ 发生的概率
- I(x)：信息量：
  $I(x) = -log_2 P(x)$
示例

事件	概率	信息量(直观)	信息量(数学)
A: 早上太阳升起	P(A) = 1	0 bits (没有任何新信息)	$log_2(P(A))$ = 0
B: 硬币头朝上	P(B)=0.5	1 bit (一点信息)	$log_2(P(B))$ = 1.0
D:早上太阳没升起	P(D) = 0	∞ bits (很多很多信息)	$log_2(P(D))$ = ∞

信息量：仅用于描述单个事件的信息量
熵：可用于描述一系列事件的信息量，即每个事件的概率x本事件的信息量之后再相加 (即随机变量的数学期望)
示例
- 袋中2个红球，3个绿球，4 个蓝球，则随机取出一个球的信息量为：熵(Entropy)
$\quad I(red) = -log_2 P(red) = 2.1699$
$\quad I(green) = -log_2 P(green) = 1.5850$
$\quad I(blue) = -log_2 P(blue) = 1.1699$

$\quad balls)] \\=-[P(red) * I(red) + P(green) * I(green) + P(blue) * I(blue)] \\= 1.53 bits$
熵定义：
$E_{x \sim P}[-log_2 P(x)]$
- 上式中的x〜P表示值x取自分布P,如上例中的 P= (2 red, 3 green, 4 blue)

交叉熵：用于衡量同一事件集上两个概率分布之间的相对熵
直观理解：要计算P和Q之间的交叉熵，您只需使用P中的概率权重来计算Q的熵
交叉熵定义：
$E_{x \sim P}[-log_2 Q(x)]$
示例
- 概率分布 P = {2 red, 3 green, 4 blue}
- 概率分布 P = {4 red, 4 green, 1 blue}
- $H(P, Q) = -[2/9 * log_2 (4/9) + 3/9 * log_2 (4/9) + 4/9 * log_2 (1/9)]$

在这里插入图片描述

上图中的log表示以2底的对数
目的：度量预测值与Ground Truth值间的差异
原理：取真实标签的概率分布作为P(概率向量)，取预测标签的概率分布作为Q(概率向量), 交叉熵用于计算这两个概率向量的损失
用途：计算两个概率向量的损失
示例：
- 分类器把样本分为3类：A, B, C
- 令P为真实标签分布，Q为预测标签分布
- 假设一个特定样本的真实标签为B，并且我们的分类器将A，B，C的概率预测为（0.15，0.60，0.25）

	P(A)	P(B)	P©
真实标签分布P	0	1	0
预测标签分布Q	0.15	0.60	0.25

交叉熵H(P,Q)
$H(P, Q) = -[ 0 * log_2 (0.15) + 1 * log_2 (0.60) + 0 * log_2 (0.25) ] =0.737$
交叉熵公式
$-\sum_{x_i} P(x_i)log_2Q(x_i)$
预测概率与损失的关系
- 当预测的概率为1时，其损失为0（即与真实标签相同）
- 当预测的概率为0时，其损失为无穷大（即与真实标签完全相反）
分类任务
- 总共有C个类别
- 多类别分类（Multi-Class Classification）
  - 网络的输出层有C个神经元
  - 每个样本只能属于C个类别中的一个
  - 真实标签值（ground truth）向量是：one-hot向量
- 多标签分类（Multi-Label Classification）
  - 网络的输出层有C个神经元
  - 每个样本可属于C个类别中的一个或多个类别
  - 真实标签值（ground truth）向量是：输出向量包含多个正的非0元素

分类交叉熵损失：又名Softmax Loss
组成：Softmax activation + Cross-Entropy Loss
用途：
- 使用分类交叉熵损失，我们将训练CNN为每个图像输出C类的概率
- 多类别分类（Multi-Class Classification）：标签真值向量中只有一个非0元素，即one-hot

二元交叉熵损失：又名Sigmoid Cross-Entropy Loss
组成：Sigmoid activation + Cross-Entropy Loss
特点：
- 与Softmax损失不同，它对于每个矢量分量（类）都是独立的，这意味着为每个CNN输出矢量分量计算的损失不受其他分量值的影响
- 这就是为什么将其用于多标签分类的原因，因为对属于某个类别的元素的洞察力不应影响对另一个类别的决策
用途：
- 二元分类（Binary-Class Classification）：标签真值是标量，其值为0或1

多标签分类：标签同时表示多个类别，在类别向量中，每一个元素表示二分类，如：[1, 0, 1] （[dog, cat, panda]）表示有dog, 没有cat, 有panda
公式
- $N$ ：表示类别数量，如[dot, cat, panda]的N=3
  $-\sum_{i=1}^N [P(x_i)log_2(Q(x_i) + (1-P(x_i))log_2(1-Q(x_i)]$

	0	1
真实标签	a	c
预测标签	b	d

H(True, Predicted)
- $y$ ：真实标签值
- $\hat y$ ：预测标签值
  $\\=-[a*log_2 (b) + c * log_2 (d)] \\= -[a*log_2 (b) + (1-a) * log_2 (1-b)]\\= -[y*log_2 (\hat y) + (1-y) * log_2 (1-\hat y)]$