交叉熵和均方差损失函数的比较

最新推荐文章于 2021-11-30 15:13:56 发布

yangpc_615

最新推荐文章于 2021-11-30 15:13:56 发布

阅读量1w

点赞数 8

分类专栏：机器学习

本文链接：https://blog.csdn.net/u014267567/article/details/79510808

版权

机器学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

交叉熵和均方差损失函数的比较

交叉熵

熵是香农信息量（ $log\frac{1}{p}$ ）（底数是2）的期望，即为衡量一个样本所需要的平均编码长度，表示为：

$H(P) = \sum _i p_i*log\frac{1}{p_i}$

其中的pi表示样本的分布，现在如果用一个估计的分布qi来表示求真实分布pi的平均编码长度，得到：

$H(P,Q) = \sum _i p_i*log\frac{1}{q_i} =-\sum _i p_i*logq_i$

即为交叉熵。举例说明，现有（A,B,C,D）四个字母，其中A出现的概率为1/2，B出现的概率为1/2，而C和D出现的概率均为0，即P:（1/2,1/2,0,0），则H(P)=-（1/2 * log1/2 + 1/2 * log1/2） = 1。现在预测得到（A,B,C,D）的概率分布为Q：（1/4，1/4，1/4，1/4），则H(P,Q) = -（1/2 * log 1/4 + 1/2 * log1/4） = 2。如果有Q：（1/2,1/4,1/4,0），则有：H(P,Q) =1.5。从这个例子中我们可以发现：

1. H(P,Q)>=H(P)；

2. 预测分布Q越接近P，交叉熵的值越小。

根据Gibbs' inequality可知，1.是恒成立的；其中2，也是交叉熵作为loss function的依据。

相对熵

与交叉熵相似的概念，还有相对熵，同样可以用来判断两个分布的相似性，定义式：

$D(P||Q)=H(P,Q)-H(P) = \sum _i p_i*log\frac{1}{q_i}-\sum _i p_i*log\frac{1}{p_i}=\sum_i p_i*log \frac{p_i}{q_i}$

即为交叉熵减去真实分布的熵得到的，一般真实分布的熵是不变的，所以相对熵和交叉熵的数学意义是相同的，所以它同样可以用来作为loss function。相对熵又被成为KL散度Kullback–Leibler divergence，KLD) Kullback–Leibler divergence。

交叉熵与均方差比较（Cross-Entropy vs. Squared Error）

将从线性回归，逻辑回归，多分类的逻辑回归（softmax）三个例子分析。我们定义 $u = w^T * x + b = w^T *x$ ，将b放到w中， $\hat y = f(u)$ ，其中f为激活函数。

线性回归：

线性回归没有激活函数，所以有 $\hat y = u$ :

SE:

$E = \frac {1}{2}\left \| \hat y - y \right \|^2 = \frac{1}{2}\sum_i^C(\hat y_i - y_i)^2$ ,gradient： $\frac{\partial E} {\partial u_i} = \hat y_i -y_i,s.t. \frac{\partial E} {\partial u} = \hat y -y$

CE:

$H(y,\hat y) = -\sum_i^C y_i *ln (\hat y_i),gradient:\frac{\partial H }{\partial u_i} = -\frac{y_i}{\hat y_i},s.t.\frac{\partial H }{\partial u} = -\frac{y}{\hat y}$

单从公式来看，SE对线性回归更适合一些，可以有效的梯度反向传播，而CE的公式预测值在分母位置，容易忽大忽小，并且还有趋向无穷的危险，故不适合作为线性回归的loss function。

逻辑回归（二分类）

采用sigmoid的为激活函数，所以有 $\hat y = f(u) = 1/(1+e^{-u}),and. \hat y '=f(u)(1-f(u)%uFF09$ ：

SE：

$E=\frac{1}{2}\sum_i^C(\hat y_i - y_i)^2 ,gradient:\frac{\partial E} {\partial u_i} = (\hat y_i -y_i)*f(u_i)*(1-f(u_i)),s.t. \frac{\partial E} {\partial u} = (\hat y -y)\odot f(u)\odot(1-f(u))$

CE:

$H(y,\hat y) = -yln(\hat y)-(1-y)ln(1-\hat y),gradient: \frac{\partial H}{\partial u_i}=\hat y_i - y_i,s.t.\frac{\partial H}{\partial u}=\hat y -y$

使用SE作为loss function时，梯度收到压缩，造成梯度的损失，因为f是sigmoid函数所以0<f(u)<1,所以0<f(u)(1-f(u))<1，梯度乘以一个大于0小于1的数，造成了梯度的损失。而用cross-entropy作为loss时，梯度保持原样，且是线性函数，保证了梯度较稳定的回传。

多分类的逻辑回归（softmax）

此时，激活函数是softmax，所以有： $\hat y_i = \frac{e^{u_i}}{\sum_j^C e^{u_j}}$

SE:

$E=\frac{1}{2}\sum_i^C(\hat y_i - y_i)^2 ,gradient:\frac{\partial E} {\partial u_i} = (\hat y_i-y_i)\hat y_i(1-\hat y_i) +\hat y_i *\sum_{j \in S(i\ \notin S)}(y_j-\hat y_j)\hat y_j$

如果这个的激活函数是sigmoid，那么导数只有前项，所以用softmax相比sigmoid，一定程度上可以减小梯度的损失。

CE：

$H(y,\hat y) = -\sum_{i=1}^C y_i ln(\hat y_i),gradient: \frac{\partial H}{\partial u_i}=\hat y_i*\sum_{j=1}^Cy_j- y_i,s.t.\frac{\partial H }{\partial u } = \hat y * \sum_{j=1}^C y_j - y,if.y\;is\; one-hot\; code, \frac{\partial H }{\partial u } = \hat y - y$