人工智能里的数学修炼 | 交叉熵损失函数：从信息说起

交叉熵损失函数被广泛的运用于各种神经网络的训练目标函数，今天我们来深度刨析一番这一函数的优势何在，它又是从何而来？

一、最初的方差代价函数

在一步步介绍到交叉熵损失函数之前，先让我们来看一下最初的方差损失函数，为什么我们需要更优的交叉熵损失函数？先了解方差损失函数有助于我们更好的把握交叉熵损失函数的优势与性能。现在我们假设有一个独立的多输入单输出神经元的结构如下：
这里写图片描述

其中输入向量 $X = （x_{1},x_{1},...,x_{n})$ ,权重系数 $W = (w_{1},w_{2},...,w_{n})$ , 偏置b，激活函数 $\sigma$ 为 $s i g m o i d$ 函数。由此我们可以得到该神经元的实际输出函数如下：

\sigma(Z)

其中

Z = W X + b

有了上面的基础，现在我们就可以给出最基础的方差损失函数

\frac{(y-a)^{2}}{2}

上式中， $y$ 为我们期望的输出，在训练神经网络的过程中，我们通过梯度下降算法来更新 $W$ 和 $b$ ，这一过程中，我们需要分别求损失函数 $C$ 对 $W$ 和 $b$ 的偏导如下：

\frac{\partial C}{\partial W} = (a-y)\sigma ^{'}(Z)X = a_{1}\sigma ^{'}(Z)

\frac{\partial C}{\partial b} = (a-y)\sigma ^{'}(Z) = a_{2}\sigma ^{'}(Z)

然后我们就可以用梯度下降的公式求得理想的参数，迭代如下：

W_{k} = W_{k-1} - \eta* a_{1}*\sigma ^{'}(Z)

b_{k} = b_{k-1} - \eta* a_{2}*\sigma ^{'}(Z)

其中 $\eta$ 为自行设置的迭代步长，这里我们又需要了解一下激活函数 $s i g m o i d$ 的性质，其函数曲线如下：
这里写图片描述

从上图我们可以看出来，激活函数 $s i g m o i d$ 的变化空间集中在0附近，与0的距离越远，函数的变化越小，即导数越小。这一性质会导致 $\sigma^{'}$ 在 $Z$ 取绝大多数值的时候会非常小，从而使 $W$ 和 $b$ 更新的非常慢,而交叉熵损失函数正是为了解决这一问题而被引入神经网络的优化过程。

二、独热编码与SoftMax函数

看完了方差损失函数，我们先不急着说交叉熵损失函数，别急，我们还需要了解一下可以使交叉损失函数更方便应用的一些神经网络设置与技巧。

2.1独热编码

我们可以先回忆一下我们平时使用的二分类器，通常我们使用0表示“是“，1表示“不是“，这其实也是一种编码，我们称其为自然编码。而我们要说的独热编码是这样的：“01“表示“是“，“10“表示“不是“。说到这里大家应该明白了，独热编码是使用N位状态寄存器来对N个状态进行编码，每个状态都由他独立的寄存器位，并且在任意时候，其中只有一位有效。

2.2SoftMax函数

做过逻辑回归分类问题的同学应该知道，在logistic regression二分类问题中，我们使用 $s i g m o i d$ 函数将输入 $W X + b$ 映射到（0，1）区间中，从而得到输入样本属于某个类别的概率。将这一思想推广到多分类问题中，我们就可以使用SoftMax函数来实现，对输出的值归一化为概率值。
这里假设在进入SoftMax函数之前，已有模型输出，一个输入样本的输出个数为C（在独热编码下即为类别数），记输出为 $a_{1},a_{2},...,a_{c}$ ，对于每个样本，它属于类别 $i$ 的概率为：

y_{i} = \frac{e^{a_{i}}}{\sum _{k =1}^{C}e^{a_{i}}}

通过上式，即SoftMax函数，可以保证 $\sum_{k =1}^{C}y_{i} = 1$ ,即属于各个类别的概率和为1。

三、信息量与熵

千呼万唤始出来，终于要讲到交叉熵损失函数的概念了。在信息论中，熵是对信息量的一个度量，我们先来介绍一下什么是信息量。

3.1信息量

假设 $X$ 是一个离散型随机变量，其取值集合为 $\chi$ , $X$ 的概率密度函数为 $\epsilon \chi$ ，于是，我们可以定义事件 $X = x_{0}$ 的信息量为：

I(x_{0})= -log(P(x_{0}))

当

l o g

以2为底时其单位为bit，以e为底时其单位为net，以10为底时单位为Hart。光看公式可能比较抽象，这里举一个简单的例子：

小宝贝考试及格的概率是0.9
骏骏哥哥考试及格的概率是0.6

则“小宝贝考试及格“这一事件带给我们的信息量（这里以e为底）是 $log_{e}(0.9) = 0.105$
而“骏骏哥哥考试及格“这一事件带给我们的信息量是 $log_{e}(0.6) = 0.511$
对此，我们可以理解为，一个事件发生的概率越大，则它所携带的信息量就越小，当 $P(x_{0} = 1)$ 时，熵将等于0，也就是说该事件的发生不会导致任何信息量的增加。