交叉熵损失函数

仙宫大niu

已于 2022-04-28 14:14:00 修改

阅读量106

点赞数 1

分类专栏：机器学习数学基础文章标签：机器学习

于 2022-04-25 19:17:09 首次发布

原文链接：https://editor.csdn.net/md/?articleId=124337024

版权

数学基础同时被 2 个专栏收录

3 篇文章 0 订阅

订阅专栏

机器学习

2 篇文章 0 订阅

订阅专栏

引入

交叉熵是信息论中的概念，主要用于度量两个概率分布之间的差异。

1.信息量与信息熵

信息量是事件发生概率的度量，信息量的大小与信息发生的概率成反比，即一个事件发生的概率越低，所包含的信息量越大。假设某一事件发生的概率为 $P (x)$ ，其信息量为
$I(x)=log_a\frac{1}{P(x)}=-log_aP(x) \qquad(1)$
计算时 ${\it a}$ 一般取 ${\it 2,e,10}$ 。
信息熵是在结果出现之前对可能产生的信息量的期望，考虑该随机变量的所有可能的取值，即所有可能发生事件所带来的信息量的期望。假设 $X$ 是一个有限个值的随机变量，其概率分布为：
$P(X=x_i)=p(x_i),i=1,...,N \qquad(2)$
则其信息熵为：
$H(x)=-\sum_{i=1}^N{p(x_i)log_ap(x_i)} \qquad(3)$
例1：抛硬币时，p(正面朝上)=p(反面朝上)=0.5，则其信息量和信息熵的大小分别为：
$I(x_正)=I(x_反)=-log_2(0.5)=1$
$H(x)=-0.5log_2(0.5)-0.5log_2(0.5)=1$
当随机系统中各个事件概率相等的时候，系统的熵最大，也就是不确定性最大，而随着某个事件的概率逐渐增大，对立事件概率越来越小，这种情况下系统的不确定性越来越小，最终趋向于0，也就是成为一个没有随机因素的系统。

2.相对熵（KL散度）

如果对于同一个随机变量X有两个单独的概率分布 $P (X)$ （样本的真实分布）和 $Q (X)$ （样本的预测分布），可以用KL散度衡量这俩个概率分布之间的差异，公式为:
$D_{KL}(p||q)=\sum_{i=1}^n{p(x_i)}log\frac{P(x_i)}{Q(x_i)}\\=\sum_{i=1}^n[P(x_i)logP(x_i)-P(x_i)logQ(x_i)]=H_{PP}(X)-H_{PQ}(X) \qquad(4)$
这里的log是以e为底的对数。
KL散度越小，表示 $P (X)$ (样本的真实分布)和 $Q (X)$ (样本的预测分布)的分布更加接近。可以通过反复训练 $Q (X)$ 使 $Q (X)$ 的分布逼近 $P (X)$ 。
例题2：在一个二分类任务中（例如猫狗分类），x1={猫}，x2={狗}，例如一张动物照片的真实分布P（X）=[1,0],预测分布Q(X)=[0.7,0.3],则KL散度为：
$D_KL(p||q)={p(x_1)}log\frac{P(x_1)}{Q(x_1)}+{p(x_2)}log\frac{P(x_2)}{Q(x_2)}=1\times{log\frac{1}{0.7}}\approx0.36$

交叉熵

1.交叉熵概念

将KL散度公式展开：
$D_{KL}(p||q)=\sum_{i=1}^n{P(x_i)}log\frac{P(x_i)}{Q(x_i)}\\=\sum_{i=1}^n[P(x_i)logp(P_i)-P(x_i)logQ(x_i)]\\=H_{PP}(X)+[-{\sum_{i=1}^n[P(x_i)logQ(x_i)]} \qquad(5)$
对于确定的概率分布， $H_{PP}(X)$ 信息熵是一个定值。
在机器学习中，由于KL散度表示真实概率分布与预测概率分布的差异，越小表示预测的结果越好，所以最小化KL散度的值；交叉熵等于KL散度加信息熵（常量），相比KL散度更加容易计算，所以一般在机器学习中直接用交叉熵做loss。
例3.题目同例2，计算交叉熵。
$H(P,Q)=-{\sum_{i=1}^n[P(x_i)logQ(x_i)]}=-(1\times log(0.7))\approx0.36$

2.为什么使用交叉熵作为损失函数

2.1似然函数

假设离散随机变量 $X$ 具有概率质量函数 $p$ ，即 $P(X=x_i)=p(x_i)$ ,如果 $p$ 有参数 $θ$ 决定，得到X的一些具体取值的集合 $x \in X$ 后，在这些观察值上的似然函数就是：
$L(\theta|x)=P_\theta(x)=P_\theta(X=x|\theta) \qquad(6)$
最大似然法就是通过最大化 $L (θ ∣ x)$ 获得 $θ$ ，即找到一组x使得 $P_θ(X=x)$ 最大的参数。
假如 $X$ 是连续随机变量，那么它的一组取值的集合 $x$ 的似然函数是：
$L(\theta|x)=f_\theta(x)=f_\theta(X=x|\theta) \qquad(7)$
$f_θ$ 是 $X$ 的概率密度函数。

2.2分类器中的损失函数

在机器学习的分类问题中。在二分类问题中，预测值y的取值是二选一，y属于伯努利分布，则有：
$p_\theta(x)=\theta^y(1-\theta)^{(1-y)} \qquad(8)$
假设数据集为 $D=((x_1,y_1),...,(x_N,y_N))$ ，则似然函数为：
$l(\theta)=log\prod_{i=1}^Np_\theta(y_i)=log\prod_{i=1}^N\theta^{y_i}(1-\theta)^{(1-{y_i})}\\=\sum_{i=1}^N[y_ilog\theta+(1-y_i)log(1-\theta)] \qquad(9)$
似然函数 $l(\theta)$ 是目标函数，加上负号就变成损失函数。对比交叉熵公式，这个损失函数就是 $y_i$ 与 $\theta$ 的交叉熵。
多分类问题
假设观察到的数据有 $K （ K > 2 ）$ 个分类， $y$ 对应的分布为多元分布，每个类对应的分布参数为 $\phi_1,\phi_2,...,\phi_K$ ,且 $p(y=i)=\phi_i,\sum_{i=1}^{K}\phi_i=1$ 其中
$p(y_i)=(\phi)^{I(y_i=1)}...(\phi_K)^{I(y_i=k)}=\prod_{i=1}^K(\phi_K)^{I(y_i=k)}$
则 $y_i$ 的对数似然为：
$l(\phi)=logp(y_i)=\sum_{k=1}^KI(y_i=k)log\phi_k \qquad(10)$
其中 $I(y_i=k)$ 中只有一项等于1，其余为0，就是 $y_i$ 的one-hot编码。将 $y_i$ 的one-hot编码记作 $y_{i,k}$ ，则 $\phi_k$ 记作 $\phi_{i,k}$ ,似然函数变为
$l(\phi)=\sum_{k=1}^KI(y_i=k)y_{i,k}log\phi_{i,k} \qquad(11)$
那么所有N个样本的平均对数似然为：
$l(\phi)=\frac1{N}\sum_{k=1}^Ky_{i,k}log\phi_{i,k} \qquad(12)$
加上负号，目标函数变为损失函数，与交叉熵形式一致。

信息量、熵和交叉熵
 交叉熵损失函数
 交叉熵损失详解

仙宫大niu

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
交叉熵损失函数

引入交叉熵是信息论中的概念，主要用于度量两个概率分布之间的差异。1.信息量与信息熵信息量是事件发生概率的度量，信息量的大小与信息发生的概率成反比，即一个事件发生的概率越低，所包含的信息量越大。假设某一事件发生的概率为P(x)P(x)P(x)，其信息量为I(x)=loga1P(x)=−logaP(x)(1) I(x)=log_a\frac{1}{P(x)}=-log_aP(x) \qquad(1) I(x)=logaP(x)1
复制链接

扫一扫