机器学习相关的基本公式：从Bayes公式到cross entropy

最新推荐文章于 2024-08-31 11:22:05 发布

digitalphysics

最新推荐文章于 2024-08-31 11:22:05 发布

阅读量996

点赞数

分类专栏：机器学习文章标签：机器学习神经网络交叉熵贝叶斯公式

本文链接：https://blog.csdn.net/tinker09/article/details/68066388

版权

机器学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

一、引子

cost function （在其他场合也常称为 error function 、lost function 或 object function ），是机器学习理论中最“朴素”也最核心的概念之一。（其地位相当于物理学中尊贵无比的“作用量”）

不论是简单的linear/logistic regression模型，还是复杂一点的SVM、RBM等模型，或者更加复杂的神经网络模型，“万变不离其宗”，只要我们谈到要“训练”模型 (从另一个角度说，也叫“拟合”数据) ，那么我们首先要搞清楚这个模型的 cost function 怎么计算，这是我们“训练”的入手点。

另一方面，cost function 的具体选择对于初学者却似乎不太友好。例如：在线性回归、SVM等模型中，我们的cost function 会用到均方差（Mean Square Error）形式；而在神经网络等模型中 cost function 又会采用 cross entropy 形式（cross entropy的定义在不同场景下也有些细腻的差异，只死记硬背定义的话会难以变通）。我们自然要问：

cross entropy 是怎么引入的，有没有像均方差一样简单直观的理解方式？
cross entropy 和均方差形式的 cost function 可不可以彼此关联起来？
cost function 中的 regularization 项有没有更加“优雅”的引入方式？
有没有统一的理论框架可以让这些“七零八落”的概念各居其位，全部理顺？

为了回答这些疑问，让我们先回顾一下机器学习要解决的问题。

二、选择模型

我们以一个典型的“拟合”或 supervised learning 问题为例。这类问题可以描述为：

已知一组采样数据 $S:=\{(\mathbf{x}_1, y_1),(\mathbf{x}_2, y_2),\dots,(\mathbf{x}_N, y_N)\}$ ，其中 $\mathbf{x}_i$ 可以视为输入的参量， $y_i$ 视为输出量。（不妨记采样集 $\mathcal{X} := \{\mathbf{x_1}, \mathbf{x_2},\cdots, \mathbf{x_N}\}$ 1， $\mathcal{Y}:=\{y_1,y_2,\cdots,y_N\}$ ） 问题：给定一个新的 $\mathbf{x}$ , 怎样根据已知数据“最合理地”预测出其对应的 $y$ 值？

为了能利用数学工具描述并解决这个问题，我们首先要假设一种数学结构来描述变量关系。（即选择model，model中所依赖的全部参数记为 $\theta$ ，即 “一个 $\theta$ 对应一个模型”）

最直接的一个想法是: 我们假定 $y$ 和 $\mathbf{x}$ 之间存在函数关系，即 $y = f(\mathbf{x}, \theta)$ ，其中 $\theta$ 是函数 $f(\cdot)$ 所依赖的参数。这是一个“决定论”模型（y的值由 $\mathbf{x}$ 唯一决定），这类模型最明显的限制是: 一个 $\mathbf{x}$ 值只能对应唯一一个 $y$ 值，它从一开始就无法描述“一个 $\mathbf{x}$ 对应多个 $y$ 值”这种可能性。

因此，为了将推导建立在更普适的基础上，我们选择“概率论” 模型：我们将 $\mathbf{x}$ 看做是随机变量 $\mathbf{X}$ 的采样值， $y$ 看做是随机变量 $Y$ 的采样值。于是，给定 $\mathbf{x}$ 后, $y$ 的值由条件概率 $p(y| \mathbf{x},\theta)$ 决定，其中 $\theta$ 是该概率模型所依赖的参数）。

显然，当 $p(y| \mathbf{x},\theta) = \delta(y-f(\mathbf{x,\theta}))$ 时（其中 $\delta(\cdot)$ 表示 Dirac函数）, 这个“概率论”模型还原到 $y=f(\mathbf{x},\theta)$ 的“决定论”模型

三、怎样预测

（1）关于Bayes公式

假设已知条件概率 $p(y|\mathbf{x},\theta)$ 的表达式，并给定参数 $\theta$ 的值，则对于某个给定的 $\mathbf{x}$ 值， $y$ “最合理”的预测值应当取如下概率平均值：

$y^= \int d y [y p (y | x, θ)] (1)$ $\hat{y} = \int {\rm d}y \left[y\;p(y|\mathbf{x},\theta)\right]\qquad(1)$

（这里假设 $y$ 的取值空间是连续，例如“regression问题”。对于 $y$ 取离散值的情形，例如“分类问题”，可以取 $\hat{y}=\mathop{\rm argmax}\limits_{y}\;p(y|\mathbf{x},\theta)$ ）
在贝叶斯思想中，除了观测数据，我们不应对理论模型的正确性做任何假设，或者说：我们应该把所谓模型的“正确性”也看做一个概率分布。即，这里描述模型的参数 $\theta$ 不应当是给定的，而应当也看做一个概率分布，于是公式（1）应改写为：

$y^= \int d y \int d θ [y p (y | x, θ) p * (θ)] 其中 p * (θ) 表示参数 θ “ 应当 ” 符合的概率分布 (2)$ $\hat{y} = \int {\rm d}y \int {\rm d}\theta \left[y\;p(y|\mathbf{x},\theta) p^*(\theta)\right]\quad\text{其中 $p^*(\theta)$ 表示参数 $\theta$ “应当”符合的概率分布}\qquad(2)$

由于每个 $\theta$ 对应一个model，对 $\theta$ 的积分，其含义就是对所有 model 的统计平均。（这种对所有 model 的统计平均，类似于统计物理中 “系综平均”的概念）。

下面的问题是该怎样选定 $p^*(\theta)$ 呢？显然，一个合理的假设是： $p^*(\theta)$ 的选取应当依赖于已知的观测数据 $(\mathcal{X},\mathcal{Y})$ ，也就是说， $p^*(\theta)$ 应是在给定数据 $(\mathcal{X,Y})$ 前提下的某种“条件概率”，即
$p * (θ) \equiv p (θ | X, Y) = p (θ) p (Y | X, θ) （贝叶斯公式） = p (θ) \prod i = 1 N p (y i | x i, θ) (3)$ $\begin{align} p^*(\theta) &\equiv p(\theta|\mathcal{X,Y})\\ &=p(\theta)p(\mathcal{Y}|\mathcal{X},\theta)\quad\text{（贝叶斯公式）}\\ &=p(\theta)\prod_{i=1}^N p(y_i|x_i,\theta)\qquad\text{(3)}\end{align}$

其中等式的第二步用到 Bayes公式 ，第三步用到 i. i. d. 假设 (independent, identical distribution), 即每个观测数据 $(x_i, y_i)$ 都是同一分布的一次独立采样结果。 $p(\theta)$ 是 $\theta$ 的“先验分布”（ $p(\theta)$ 是我们需要“手工”选定的, 如果我们对 $\theta$ 没有任何“先验”认识，那么可以取 $p(\theta)$ 为均匀分布。后文中，我们会看到， $p(\theta)$ 是 cost function 中 regularization 项一种非常自然的引入方式）

将公式（3）代入公式（2），我们进一步得到

$y^= \int d y \int d θ [y p (θ) p (y | x, θ) \prod i = 1 N p (y i | x i, θ)] (4)$ $\hat{y} = \int {\rm d}y \int {\rm d}\theta \left[y\;p(\theta)\;p(y|\mathbf{x},\theta)\prod_{i=1}^N p(y_i|x_i,\theta) \right]\qquad(4)$

即，只要我们选取一个 $p(y|\mathbf{x},\theta)$ (以及“先验分布” $p(\theta)$ ), 我们就可以得到“预测值” $\hat{y}$ .

四、极值点近似

根据上面的式子，我们有两点结论：

仅仅在Bayes 公式的框架下，（即不涉及任何model“训练”过程），我们已经有一套方法完全可以实现“预测”。
基于Bayes公式的“预测”，一般计算量很大。在model参数和观测数据很多的情况下，我们很难处理（因为涉及到对所有参数的全空间积分，同时被积函数又和所有数据点的值有关）

因此为了简化计算，我们引入“极值点近似”：我们认为 $p^*(\theta) \equiv p(\theta|\mathcal{X,Y})$ 满足某种“凸性”，我们 $p^*(\theta)$ 可以用其极大值位置 $\theta^*$ 来描述（想象 $p^*(\theta)$ 是一个“凸峰”，其极大值的位置在 $\theta^*$ ）, 即：

$p * (θ) \approx δ (θ - θ *) 其中 θ * 满足极值条件： θ * = argmax θ p (θ | X, Y) (5)$ $\begin{align}p^*(\theta)&\approx \delta(\theta-\theta^*) \quad \text{其中 $\theta^*$ 满足极值条件：} \theta^* =\mathop{\rm argmax}\limits_\theta \;p(\theta|\mathcal{X, Y})\qquad\text{(5)}\end{align}$

将近似条件（5），带入用于“预测”的公式（2），我们有：

$y^= \int d y [y p (y | x, θ *)] (6)$ $\hat{y} = \int {\rm d}y \left[y\;p(y|\mathbf{x},\theta^*) \right]\qquad\text{(6)}$

其中 $\theta^*$ ，结合公式（3），满足极值条件：

$θ * = argmax θ p (θ | X, Y) = argmax θ [p (θ) \prod i = 1 N p (y i | x i, θ)] = argmax θ log [p (θ) \prod i = 1 N p (y i | x i, θ)] = argmax θ [log p (θ) + \sum i = 1 N log p (y i | x i, θ)]$ $\begin{align}\theta^* &=\mathop{\rm argmax}\limits_\theta \;p(\theta|\mathcal{X, Y})\\& =\mathop{\rm argmax}\limits_\theta \left[p(\theta)\prod_{i=1}^N p(y_i|\mathbf{x}_i,\theta)\right] = \mathop{\rm argmax}\limits_\theta \log\left[p(\theta)\prod_{i=1}^N p(y_i|\mathbf{x}_i,\theta)\right] \\ &=\mathop{\rm argmax}\limits_\theta \left[\log p(\theta) + \sum_{i=1}^N \log p(y_i|\mathbf{x}_i,\theta)\right]\\ \end{align}$

即，

$θ * 其中： C (θ) = argmin θ C (θ) : = - 1 N \sum i = 1 N log p (y i | x i, θ) - 1 N log p (θ) \equiv C 0 (θ) - 1 N log p (θ) (7)$ $\begin{align}\theta^* &=\mathop{\rm argmin}\limits_\theta \mathscr{C}(\theta)\\ \text{其中：}\quad\mathscr{C}(\theta)&:=- {1\over N}\sum_{i=1}^N \log p(y_i|\mathbf{x}_i,\theta)- {1\over N}\log p(\theta) \equiv \quad\mathscr{C}_0(\theta) -{1\over N}\log p(\theta) \qquad\text{(7)}\end{align}$

$\mathscr{C}(\theta)$ 即是训练model时用到的 cost function。我们可以通过 SGD 等方法来找到极值点 $\theta^*$

通过上面的推导，我们可以发现：机器学习中“训练”模型的整套数学方法可以看做是 Bayes公式在“极值点近似”下2的结果。下面我们将证明： 公式（7）第一项 $\mathscr{C}_0(\theta) \equiv - {1\over N}\sum\limits_{i=1}^N \log p(y_i|\mathbf{x}_i,\theta)$ 和第二项可以分别看作是 “cross entropy”和 regularization 因子。

五、cross entropy 和 regularization

基于已经观测到的数据 $(\mathcal{X,Y})$ ，我们定义“经验分布”（emprical distribution）为：

$q (x, y) \equiv 1 N \sum i = 1 N δ (x - x i) δ (y - y i) 显然它满足归一性条件： \int d x d y q (x, y) = 1$ $q(\mathbf{x},y) \equiv {1\over N}\sum_{i=1}^N\delta(\mathbf{x}-\mathbf{x}_i)\delta(y-y_i)\quad\text{显然它满足归一性条件：}\int{\rm d}\mathbf{x}{\rm d}y\; q(\mathbf{x},y) = 1$

于是公式（7）中的 $\mathscr{C}_0(\theta)$ 可以改写为：

$C 0 (θ) = - \int d x d y q (x, y) log p (y | x, θ) \equiv cross_entropy (q, p θ)$ $\mathscr{C}_0(\theta) =-\int{\rm d}\mathbf{x}{\rm d}y \;q(\mathbf{x},y) \log p(y|\mathbf{x},\theta) \equiv \text{cross_entropy}(q, p_\theta)$

即 $\mathscr{C}_0(\theta)$ 是“经验分布” $q$ 和 “理论分布” $p_\theta$ 之间的 cross entropy 。

为了避免over-fitting，我们不希望weight参数过大，因此常在 cost function 中引入一个额外项。这个额外项，被称为 regularization 因子。所谓“不希望weight参数过大”，换句话说，就是我们对weight参数有个“先验”预期，（我们不妨把公式（7）中的 $\theta$ 看做 weight参数），即 “先验分布” $p(\theta)$ 应当优先取范数较小的值，因此我们不妨把 $p(\theta)$ 取为以 $0$ 为中心的正态分布： $p(\theta) \propto e^{-N\alpha|\theta|^2}$ （ $N\alpha$ 可以看作一个调节正态分布宽度的参数），带入公式 (7)，我们有：

$C (θ) = C 0 (θ) + α | θ | 2 + (不重要的常数因子)$ $\mathscr{C}(\theta)=\mathscr{C}_0(\theta) + \alpha|\theta|^2 + \text{(不重要的常数因子)}$

其中的 $\alpha|\theta|^2$ “正好”还原了 L2 regularization 的结果；同样如果我们取 $p(\theta) \propto e^{-N\alpha|\theta|}$ ，则我们将还原 L1 regularization 的结果。综上，公式（7）的意义正好可以看作是 cross entropy 和 regularization 的和。

六、cross entropy 判据和均方差判据的关系

在公式（7）中，如果我们取 $p(y |\mathbf{x},\theta)$ 满足正态分布形式 $p(y|\mathbf{x},\theta)\propto e^{-\alpha[y- f(\mathbf{x},\theta)]^2}$ ，则公式（7）化为：

$θ * = argmin θ C (θ) = argmin θ [1 N \sum i = 1 N [y - f (x, θ)] 2 + （ regularization 因子项）]$ $\theta^* = \mathop{\rm argmin}\limits_\theta \mathscr{C}(\theta) = \mathop{\rm argmin}\limits_\theta \left[{1\over N} \sum_{i=1}^N [y-f(\mathbf{x},\theta)]^2 + \text{（regularization 因子项）}\right]$

这个公式的第一项求和，正好是均方差（Mean Square Error）。即，在 $p(y |\mathbf{x},\theta)$ 取上述的正态分布时，“最小化 cross entropy判据 ”还原为 “最小化均方差判据”。

$\mathcal{X}$ 可以看做一个“随机序列”，在本文讨论的问题中各 $\{x_i\}$ 之间彼此独立。但在更一般的情况下， $\mathcal{X}$ 可以是一个有内在数学结构的序列，例如一条 Markov chain ↩
“极值点近似”在理论物理中和 “鞍点近似”、“平均场近似”等概念类似 ↩