当我们优化损失函数时，我们到底在优化什么？-CSDN博客

高能预警：本文涉及大量的数学推导，如有不适，概不负责。

回归问题与平方误差和

在回归问题（regression problems）中，我们常用平方误差和（sum of squares）来衡量模型的好坏。

回归问题可以定义如下：
给定一个包含 $\pmb{N}$ 个数据集的训练集 $\mathbf{x}\equiv\{\pmb{x_1},\pmb{x_2},\pmb{x_3},...,\pmb{x_N}\}$ ，以及这些数据对应的目标值 $\mathbf{t}=\{\pmb{t_1},\pmb{t_2},\pmb{t_3},...,\pmb{t_N}\}$ ，回归问题的目标是利用这组训练集，寻找一个合适的模型，来预测一个新的数据点 $\hat{x}$ 对应的目标值 $\hat{t}$ 。记模型的参数为 $\pmb{w}$ ，模型对应的函数为 $\pmb{y}$ ，模型的预测值可以相应表示为 $\pmb{y}(\pmb{x},\pmb{w})$ 。

为了衡量模型的好坏，需要一种方法衡量预测值与目标值之间的误差，一个常用的选择是平方误差和：
$\pmb{E}(\pmb{w})=\frac{1}{2}\sum_{n=1}^N \{\pmb{y}(\pmb{x},\pmb{w})-\pmb{t_n}\}^2$

平方误差和函数可以看成是每个数据点 $\pmb{x_n}$ 的预测值 $\pmb{y}(\pmb{x_n},\pmb{w})$ 到真实目标值 $\pmb{t_n}$ 的误差平方和的一半。

111
不同的参数 $\pmb{w}$ 对应于不同的误差函数 $\pmb{E}(\pmb{w})$ ，因此，回归问题的目标通常是找到一组参数 $\pmb{w}^\ast$ 使得误差函数 $\pmb{E}(\pmb{w})$ 最小化。

那么最小化 $\pmb{E}(\pmb{w})$ 究竟有什么意义呢？
在回答这个问题之前，我们需要先复习一下概率论的知识点。

贝叶斯概率

先复习一下与条件概率相关的贝叶斯公式：
$\pmb{p}(x|y)=\frac{\pmb{p}(y|x)\pmb{p}(x)}{\pmb{p}(y)}$
对于回归问题来说，如果我们记训练集为 $\mathcal{D}$ ，那么对于模型函数 $\pmb{w}$ 来说，贝叶斯公式给出：
$\pmb{p}(w|\mathcal{D})=\frac{\pmb{p}(\mathcal{D}|w)\pmb{p}(w)}{\pmb{p}(\mathcal{D})}$
其中 $\pmb{p}(w)$ 表示的是参数 $\pmb{w}$ 的先验（prior）分布； $\pmb{p}(\mathcal{D}|w)$ 是给定参数为 $\pmb{w}$ 的情况下，训练数据为 $\mathcal{D}$ 的可能性，我们也可以把它看成一个关于 $\pmb{w}$ 的函数，这个函数又叫做似然函数（likelihood function）； $\pmb{p}(w|\mathcal{D})$ 是参数 $\pmb{w}$ 在给定数据 $\mathcal{D}$ 下的后验（posterior）分布。

给定这些定义，贝叶斯公式可以表示成：
$\mathbf{posterior}\varpropto\mathbf{likelihood}\times\mathbf{prior}$
即后验正比于似然与先验的乘积。

似然函数是一个非常重要的概念。通过极大似然函数 $\pmb{p}(\mathcal{D}|w)$ ，我们可以找到一个最优的参数 $\pmb{w}^\ast$ ，使得在这组参数设定下，出现训练数据 $\mathcal{D}$ 的可能性 $\pmb{p}(\mathcal{D}|w)$ 最大。这组参数在统计学上叫做参数 $\pmb{w}$ 的极大似然估计。

极大似然与回归问题

我们在初中阶段就学到了在做实验时，需要多次取样取平均的方法来减少随机误差，而误差有两种：系统误差和随机误差，那么在实际取样计算的过程中，系统误差是不可避免的。

同理，在回归问题中， $\pmb{x}$ 的测量值 $\pmb{t}$ 会存在一定的误差。

假定对所有的数据点 $\pmb{x}$ ，模型预测值 $\pmb{y}(\pmb{x_n},\pmb{w})$ 与目标值 $\pmb{t}$ 之间的误差是一样的，并服从一定的概率分布，比如均值为0，方差为 $\beta^{-1}=\sigma^2$ 的高斯分布，则有：
$\pmb{p}(t-y(x, w)|x,w,\beta)\sim\mathcal{N}(t-y(x,w)|0,\beta^{-1})$
即：
$\pmb{p}(t|x,w,\beta)\sim\mathcal{N}(t|y(x,t),\beta^{-1})$

222

对于一组独立同分布的数据点 $\mathbf{x}\equiv\{\pmb{x_1},\pmb{x_2},\pmb{x_3},...,\pmb{x_N}\}$ ，以及这些数据对应的目标值 $\mathbf{t}=\{\pmb{t_1},\pmb{t_2},\pmb{t_3},...,\pmb{t_N}\}$ ，我们得到关于这组数据的似然函数：
$\pmb{p}(t|x,w,\beta^{-1})=\prod_{n=1}^N \pmb{p}(t_{n}|x_{n},w,\beta^{-1})=\prod_{n=1}^N \mathcal{N}(t_{n}|y(x_{n},w),\beta^{-1})$
其中，高斯分布的概率函数为：
$\mathcal{N}(t|y(x,t),\beta^{-1})=\left(\frac{\beta}{2\pi}\right)\mathbf{exp}\{-\frac{\beta}{2}[t-y(x,w)]^2\}$
可以通过极大化这个似然函数得到关于 $\pmb{w}$ 的一组极大似然解。

不过，更方便的做法是极大对数似然函数，因为对数函数是严格单调递增的，所以极大对数似然的解与极大似然的解是相同的。

对数似然函数为：
$\mathbf{ln}p(t|x,w,\beta^{-1})=-\frac{\beta}{2}\sum_{n=1}^N \{y(x_{n},w)-t^2\}+\frac{N}{2}\mathbf{ln}\beta-\frac{N}{2}\mathbf{ln}2\pi$
如果我们你不考虑 $\beta$ 的影响，那么，对于参数 $\pmb{w}$ 来说，最小化平方误差和的解，就等于极大对数似然的估计。

因此，最小化平方误差和 $\pmb{E}(\pmb{w})$ 与极大似然等价，考虑到似然函数的定义，优化 $\pmb{E}(\pmb{w})$ 相当于在给定高斯误差的假设下，寻找一组 $\pmb{w}$ 使得观察到目标值 $\pmb{t}$ 的概率最大。

分类问题与交叉熵损失

现在我们考虑另一类问题----分类问题。

我们同样给出定义：
给定一个包含 $\pmb{N}$ 个数据集的训练集 $\mathbf{x}\equiv\{\pmb{x_1},\pmb{x_2},\pmb{x_3},...,\pmb{x_N}\}$ ，以及这些数据对应的目标值 $\mathbf{t}=\{\pmb{t_1},\pmb{t_2},\pmb{t_3},...,\pmb{t_N}\}$ ，这里， $\mathbf{t_{n}}\in\{\pmb{1},\pmb{2},\pmb{3},...,\pmb{K}\}$ ，分类问题的目标是利用这组训练集，寻找一个合适的模型，来预测一个新的数据点 $\hat{\pmb{x}}$ 对用的类别 $\hat{\pmb{t}}$ 。现在假设模型的参数为 $\pmb{w}$ ，模型输出是属于每一类的概率，预测为第 $\mathbf{k}\in\{\pmb{1},\pmb{2},\pmb{3},...,\pmb{K}\}$ 类的概率为 $\pmb{y}(\pmb{x},\pmb{w})$ 。

对于样本 $\pmb{x}$ ，其属于第 $\pmb{t}$ 类的概率为：
$\pmb{p}(t|x,w)=\prod_{k=1}^K \pmb{p}(y=t|x,w)^{1_{t=k}}$
其中：
$\mathbf{1}_{t=k} = \begin{cases} 1, & t=k \\ 0, & t\neq k \end{cases}$
因此，似然函数为：
$\pmb{p}(\mathbf{t}|\mathbf{x},w)=\sum_{n=1}^N\sum_{k=1}^K \mathbf{1}_{t=k}\mathbf{log}\pmb{p}(\pmb{t_n}|\pmb{x_n},w)$
极大化对数似然，相当于极小化：
$-\sum_{n=1}^N\sum_{k=1}^K \mathbf{1}_{t=k}\mathbf{log}\pmb{p}(\pmb{t_n}|\pmb{x_n},w)$
事实上，这正是我们常使用的多类交叉熵损失函数的表示形式。

因此，在分类问题中，最小化交叉熵损失函数相当于样本的极大似然函数。

正则项

在优化目标函数时，处理正常的损失函数外，为了防止过拟合，我们通常会加入一些正则项，比如权值衰减（weight decay），lasso等等。

比如，在回归问题中，使用权值衰减后，目标函数可能是：
$\pmb{E}(\pmb{w})=\frac{1}{2}\sum_{n=1}^N \{\pmb{y}(\pmb{x},\pmb{w})-\pmb{t_n}\}^2+\lambda\pmb{w}^{\top}\pmb{w}$
这里，我们假定 $\pmb{w}$ 可以被拉长表示为一个一维向量。
此时，优化这个目标函数就不能用极大似然来解释了。
不过，如果我们观察贝叶斯公式：
$\pmb{p}(x|y)=\frac{\pmb{p}(y|x)\pmb{p}(x)}{\pmb{p}(y)}$
以及：
$\mathbf{posterior}\varpropto\mathbf{likelihood}\times\mathbf{prior}$
我们会发现，如果两边去对数，那么就有：
$\mathbf{ln}\pmb{p}(w|\mathcal{D})=\mathbf{ln}\pmb{p}(\mathcal{D}|w)+\mathbf{ln}\pmb{p}(w)+\pmb{const}$
那么，我们加入的正则项，是不是对应于 $\pmb{w}$ 的先验概率 $\pmb{p}(\pmb{w})$ 呢？
答案是肯定的。

如果给出参数 $\pmb{w}$ 侧先验概率，那么极大后验估计（Maximize a Posterior, MAP）是能给出类似带正则项目标函数 $\pmb{E}(\pmb{w})$ 的结构的。

问题是什么样的先验会给出类似权值衰减的正则项呢？
一个通常的想法是我们认为参数 $\pmb{w}$ 服从的先验分布是一个均值为0，方差为 $\alpha^{-1}\pmb{I}$ 的D维高斯分布，那么，我们有：
$\pmb{p}(w|\alpha)=\mathcal{N}(0,\alpha^{-1}\pmb{I})=\left(\frac{\alpha}{2\pi}\right)^{\frac{D}{2}}\mathbf{exp}\{-\frac{\alpha}{2}\pmb{w}^{\top}\pmb{w}\}$
其对数为：
$\mathbf{ln}\pmb{p}(w|\alpha)=-\frac{\alpha}{2}\pmb{w}^{\top}\pmb{w}+\pmb{const}$
结合我们之前的推导，我们有：
$\mathbf{ln}\pmb{p}(w|\mathbf{t},\mathbf{x}, \beta,\alpha)=\mathbf{ln}\pmb{p}(\mathbf{t}|\mathbf{x}, w,\beta)+\mathbf{ln}\pmb{p}(w|\alpha)$
$=-\frac{\beta}{2}\sum_{n=1}^N \{\pmb{y}(\pmb{x},\pmb{w})-\pmb{t_n}\}^2-\frac{\alpha}{2}\pmb{w}^{\top}\pmb{w}+\pmb{const}$
因此，加权值衰减的正则与高斯分布先验下极大后验估计的结果一致。
对于分类问题，该结论依然成立。

为什么是高斯分布？

我们已经解释了目标函数中优化某些损失韩式和正则项的意义。在解释更多的损失函数和正则项之前，需要先解决一个问题。

为什么是高斯分布？怎么老是高斯分布？

先给出结论：
对于一个连续随机变量 $\pmb{x}$ ，在给定均值和方差的约束下，交叉信息熵最大的分布是高斯分布。

熵是描述系统混乱度的概念，热力学第二定律告诉我们，在没有外力作用时，熵总是趋于自增的，因此，上面的结论告诉我们，生活中很多现象服从高斯分布并不是偶然。

我们先引出信息熵的概念。

先考虑一个离散的随机变量 $\pmb{X}$ ，给定一个该随机变量的观察值 $\pmb{x}$ ，希望用一个函数 $\pmb{h}(\pmb{x})$ 去衡量 $\pmb{x}$ 所携带的信息量。一般来说，如果 $\pmb{x}$ 是一件发生概率极低的事情，那么我们会觉得它很有信息量，反之，如果 $\pmb{x}$ 是一件经常发生的事情，那么我们会觉得信息量很少。因此，信息量会和 $\pmb{x}$ 发生的概率 $\pmb{p}(\pmb{x})$ 相关。

另一方面，我们认为，如果两个事件 $\pmb{x}$ 和 $\pmb{y}$ 是相互独立的，那么，我们认为两者携带的信息量是各自信息量之和：
$\pmb{h}(\pmb{x},\pmb{y})=\pmb{h}(\pmb{x})+\pmb{h}(\pmb{y})$
另一方面，独立性给出：
$\pmb{p}(\pmb{x},\pmb{y})=\pmb{p}(\pmb{x})\pmb{p}(\pmb{y})$
再考虑约束，当 $\pmb{p}(\pmb{x})=1$ 时， $\pmb{h}(\pmb{x})=0$ ，不难看出，符合条件的是概率密度的对数函数，不妨定义为：
$\pmb{h}(\pmb{x})=-\mathbf{log}_2 \pmb{p}(\pmb{x})$
这里，使用以2为底的对数并不是必须的，也可以使用其它底。不过使用2为底，信息的单位就变成了bit。

对于一个离散分布 $\pmb{X}$ 来说，其信息的期望为：
$\pmb{H}[\pmb{x}]=-\sum_x \pmb{p}(\pmb{x})\mathbf{log}_2 \pmb{p}(\pmb{x})$
我们把 $\pmb{H}[\pmb{x}]$ 叫做这个随机变量的熵。
比如说，对于一个等概率，取值为8个的离散分布，其熵为：
$\pmb{H}=-8\times\frac{1}{8}\times\mathbf{log}_2 \frac{1}{8}=3bits$
3比特正是用二进制表示这8个值所需要的大小。
再比如说，考虑取值为 $a, b, c, d$ ，概率为 $\frac{1}{2},\frac{1}{4},\frac{1}{8},\frac{1}{8}$ 的分布，其熵为：
$\pmb{H}=-\left(\frac{1}{2}log_2 \frac{1}{2}+\frac{1}{4}log_2 \frac{1}{4}+2\times\frac{1}{8}log_2 \frac{1}{8}\right)=1.75bits$
而这正是用霍夫曼编码a:0，b:10，c:110，d:111表示这四个值的平均比特的大小。
除了以2为底，我们还可以以其他对数为底，比如自然对数：
$\pmb{H}[\pmb{x}]=-\sum_x \pmb{p}(\pmb{x})\mathbf{ln} \pmb{p}(\pmb{x})$
连续分布：
$\pmb{H}[\pmb{x}]=-\int_x \pmb{p}(\pmb{x})\mathbf{ln} \pmb{p}(\pmb{x})\pmb{dx}$
现在假设某个分布满足：
$\int_x \pmb{p}(\pmb{x})\pmb{dx}=1$
$\int_x \pmb{x}\pmb{p}(\pmb{x})\pmb{dx}=\mu$
$\int_x (\pmb{x}-\pmb{\mu})^2\pmb{p}(\pmb{x})\pmb{dx}=\sigma^2$
在这些假设下，为了使 $\pmb{H}[\pmb{x}]$ 最大，其拉格朗日（Lagrange）函数为：
$-\int_x \pmb{p}(\pmb{x})\mathbf{ln} \pmb{p}(\pmb{x})\pmb{dx}+\lambda_1(\int_x \pmb{p}(\pmb{x})\pmb{dx}-1)+\lambda_2(\int_x \pmb{x}\pmb{p}(\pmb{x})\pmb{dx}-\mu)+\lambda_3(\int_x (\pmb{x}-\pmb{\mu})^2\pmb{p}(\pmb{x})\pmb{dx}-\sigma^2)$
即：
$\int_x [-\pmb{p}\mathbf{ln} \pmb{p}+\lambda_1\pmb{p}+\lambda_2\pmb{x}\pmb{p}+\lambda_3(\pmb{x-\mu^2})\pmb{p}]\pmb{dx}+\pmb{const}=\int_x \pmb{G}(\pmb{p},\pmb{x})\pmb{dx}+\pmb{const}$
利用变分法中的欧拉-拉格朗日方程：
$\frac{\partial\pmb{G}}{\partial\pmb{p}}-\frac{\pmb{d}}{\pmb{dx}}\left(\frac{\partial\pmb{G}}{\partial\pmb{p}^{'}}\right)=0$
我们得到使得 $\pmb{H}[\pmb{x}]$ 最大的 $\pmb{p}(\pmb{x})$ 需要满足：
$\mathbf{ln}\pmb{p}(\pmb{x})=-1+\lambda_1+\lambda_2\pmb{x}+\lambda_3(\pmb{x-\mu})^2$
即：
$\pmb{p}(\pmb{x})=\mathbf{exp}(-1+\lambda_1+\lambda_2\pmb{x}+\lambda_3(\pmb{x-\mu})^2)$
带入约束中，不难解出：
$\pmb{p}(\pmb{x})=\frac{1}{\sqrt{2\pi}\sigma}\mathbf{exp}\{\frac{(\pmb{x-\mu})^2}{2\sigma^2}\}$
即高斯分布是满足约束下，熵最大的分布。