神经网络与深度学习1--机器学习概述

muyuu

已于 2022-02-03 18:03:27 修改

阅读量378

点赞数

分类专栏：机器学习文章标签：机器学习

于 2021-12-27 22:26:37 首次发布

本文链接：https://blog.csdn.net/muyuu/article/details/121997049

版权

机器学习专栏收录该内容

14 篇文章 2 订阅

订阅专栏

机器学习概述

机器学习中的损失函数
正则化
机器学习中评价指标
- 精确率和召回率
- 交叉验证

本文是邱锡鹏教授撰写的《神经网络与深度学习》一书中 第2章：机器学习概述 的读书笔记，由于该部分比较基础，只记录一些本人觉得比较值得记录的内容，中间也会包括一些拓展和思考。

机器学习中的损失函数

平方损失函数

适用问题：预测的 label y 为实值时，通常是回归问题
定义：
$L(y,f(x;\theta)) = \frac{1}{2} (y - f(x;\theta))^2$

Note：平方损失函数一般不适用于分类问题

交叉熵损失函数

适用问题：预测的 label y $\in \{1,2,3,\cdots,C\}$ 的离散类型，通常是多分类问题
定义：（详细参见交叉熵）
$L(\boldsymbol y,f(\boldsymbol x;\theta)) = -\boldsymbol y log f(\boldsymbol x; \theta) = -\sum_{c=1}^C y_c log f(\boldsymbol x_c; \theta)$
因为 $\boldsymbol y$ 通常是 one-hot 向量，所以上式直接等价于 $L(\boldsymbol y,f(\boldsymbol x;\theta)) = - log f_y(\boldsymbol x; \theta)$

Hinge 损失函数

适用问题：预测的 label y $\in \{1,-1\}$ 的离散类型，通常是二分类问题
定义：
$L(y,f(\boldsymbol x;\theta)) = max(0, 1- y f(\boldsymbol x; \theta) )$

最大似然估计与平方损失函数

假设真实值 $y$ 与预测值 $f(x;\theta)$ 的关系如下：
$\boldsymbol y = f(\boldsymbol x;\Theta) + \boldsymbol \epsilon$
其中 $\epsilon$ 是误差函数，不失一般性，我们认为其服从正态分布 $\mathcal{N}(\mathop{0} \limits ^{\rightarrow},\sigma^2 I)$ ，那么 $\boldsymbol y$ 应该服从分布 $\mathcal{N}(f(\boldsymbol x;\Theta),\sigma^2 I)$
$\begin{aligned} \Rightarrow \text{argmin} - logP(\boldsymbol y|\boldsymbol x;\Theta) &= \text{argmin} -log\prod_{i=1}^n \frac{1}{\sqrt{2\pi}\sigma} exp(-\frac{(y-f(x_i;\theta))^2}{2\sigma^2})\\ &= \text{argmin} -\sum_{i=1}^n -\frac{(y-f(x_i;\theta))^2}{2\sigma^2}\\ &= \text{argmin} \sum_{i=1}^n (y-f(x_i;\theta))^2 \end{aligned}$

因此，当 $\boldsymbol y$ 满足高斯分布时，最大似然估计等价于平方损失函数

最大似然估计与交叉熵

参见最大似然估计与交叉熵

结论：当数据量足够大时，最大似然估计等价于最小化交叉熵

最大似然估计与最大后验估计

最大似然估计：频率学派 观点，认为参数为确定的未知数, 参数估计就是找出未知数的过程
$\hat{\Theta} = \text{argmax} \sum_{i=1}^n log P(x_i; \Theta) = \text{argmin} -\sum_{i=1}^n log P(x_i; \Theta)$
最大后验估计: 贝叶斯 观点，认为参数其实也是随机变量, 服从一定的分布。可以对参数的先验分布进行建模, 并使用观测数据来对参数进行修正, 最后使用修正后的参数分布来进行推断
$\begin{aligned} \hat{\Theta} &= \text{argmax } P(\Theta |x_1, \cdots, x_n)\\ &= \text{argmax } \frac{P(x_1, \cdots, x_n |\Theta) \cdot P(\Theta)}{P(x_1, \cdots, x_n)}\\ &= \text{argmax} \prod_{i=1}^n P(x_i|\Theta)\cdot P(\Theta)\\ &= \text{argmin} -\sum_{i=1}^n logP(x_i|\Theta) - logP(\Theta) \end{aligned}$

综上，最大后验估计是在最大似然估计的基础上加上了参数 $\Theta$ 的先验信息。
1. 如果认为 $\Theta$ 服从均匀分布，则 $P(\Theta) = \frac{1}{b-a}$ ，与 $\Theta$ 无关，那么最大后验估计 = 最大似然估计
2. 如果认为 $\Theta$ 服从正态分布 $\mathcal{N}(\mathop{0} \limits ^{\rightarrow},\frac{1}{\lambda}I)$ ，则 $P(\Theta) = log\frac{1}{\sqrt{2\pi \lambda}} - \frac{1}{2}\lambda \Theta^T \Theta$ ，与 $\lambda||\Theta||_2$ 成正比，也就是说最大后验估计 = 最大似然估计 + $L_2$ 正则化
1. 如果认为 $\Theta$ 服从Laplace分布 $\mathcal{Laplace}(\mathop{0} \limits ^{\rightarrow},\frac{1}{\lambda}I)$ ，则 $P(\Theta) = -log \frac{\lambda}{2} exp(-\lambda|\Theta|)$ ，与 $\lambda||\Theta||_1$ 成正比，也就是说最大后验估计 = 最大似然估计 + $L_1$ 正则化

#########################################################################

正则化

关于L2正则化的两点思考

对于线性回归 $f(\boldsymbol x;\boldsymbol w) = \boldsymbol w^T \boldsymbol x$ ，其平方损失： $L(\boldsymbol w)= \frac{1}{2} || \boldsymbol y - \boldsymbol X^T \boldsymbol w ||^2$ ，用最小二乘法可得 $\boldsymbol w$ 的解析解为： $\boldsymbol w = (\boldsymbol X^T \boldsymbol X)^{-1} \boldsymbol X \boldsymbol y$ 。

但这个要求 $\boldsymbol X^T \boldsymbol X$ 可逆阵，而实际使用中，仅仅可逆还不够，如果 $\boldsymbol X^T \boldsymbol X$ 可逆，但有接近于0的特征值，仍会使得数据集 $\boldsymbol X$ 一点点小的扰动就让 $(\boldsymbol X^T \boldsymbol X)^{-1}$ 的值变化很大，为了解决这个问题，有人提出了岭回归，给 $\boldsymbol X^T \boldsymbol X$ 的对角线元素都加上一个常数 $\alpha$ ，使得 $\boldsymbol X^T \boldsymbol X + \alpha \boldsymbol I$ 求逆稳定：
$\boldsymbol w = (\boldsymbol X^T \boldsymbol X + \alpha \boldsymbol I)^{-1} \boldsymbol X \boldsymbol y$

而上式恰好等价于给平方损失加上L2正则化：
$L(\boldsymbol w) = \frac{1}{2} || \boldsymbol y - \boldsymbol X^T \boldsymbol w ||^2 + \frac{1}{2} \alpha ||\boldsymbol w||^2$

那么我们就知道了L2正则化的第一个作用：L2正则化可以使得求解更稳定！

继续观察 $\boldsymbol w = (\boldsymbol X^T \boldsymbol X + \alpha \boldsymbol I)^{-1} \boldsymbol X \boldsymbol y$ ，它可以分解成：
$\begin{aligned} \boldsymbol w &= (\boldsymbol X^T \boldsymbol X + \alpha \boldsymbol I)^{-1} \boldsymbol X^T \boldsymbol X \cdot \hat{\boldsymbol w}\\ &= (\boldsymbol Q^T \Gamma \boldsymbol Q + \alpha \boldsymbol Q^T \boldsymbol Q) ^{-1} \boldsymbol Q^T \Gamma \boldsymbol Q \cdot \hat{\boldsymbol w}\\ &= (\Gamma \boldsymbol Q+ \alpha \boldsymbol Q) ^{-1} \Gamma \boldsymbol Q \cdot \hat{\boldsymbol w}\\ &= \boldsymbol Q^{-1} (\Gamma + \alpha \boldsymbol I)^{-1} \Gamma \boldsymbol Q \cdot \hat{\boldsymbol w}\\ &= \boldsymbol Q^T (\Gamma + \alpha \boldsymbol I)^{-1} \Gamma \boldsymbol Q \cdot \hat{\boldsymbol w} \end{aligned}$
其中 $\hat{\boldsymbol w} = (\boldsymbol X^T \boldsymbol X)^{-1} \boldsymbol X \boldsymbol y$ 是原始没有加L2正则化时的解。

假如 $\lambda_i$ 是 $\boldsymbol X^T \boldsymbol X = \boldsymbol Q^T \Gamma \boldsymbol Q$ 的特征值，那么 $\frac{\lambda_i}{\lambda_i + \alpha}$ 就是 $\boldsymbol Q^T (\Gamma + \alpha \boldsymbol I)^{-1} \Gamma \boldsymbol Q$ 的特征值。
$\Rightarrow (\boldsymbol Q \boldsymbol w)_i = \frac{\lambda_i}{\lambda_i + \alpha} (\boldsymbol Q \hat{\boldsymbol w})_i$

也就是说：在变换 $\boldsymbol Q$ 下， $\boldsymbol w_i$ 相对于 $\hat{\boldsymbol w_i}$ 都变小了，而且变小的强度跟 $\lambda_i$ 成反比。

由于这里 $\frac{L(\hat{\boldsymbol w})}{\partial^2 \hat{\boldsymbol w}} = \boldsymbol X^T \boldsymbol X$ ，因此 $\boldsymbol X^T \boldsymbol X$ 是损失函数 $L(\boldsymbol w)$ 的海森阵，反映的是损失函数 $L(\hat{\boldsymbol w})$ 的凸性， $\lambda_i$ 越大，表示凸性越强。再结合上面的结果，我们可以得到L2正则化的第二个作用：

在正交变换 $\boldsymbol Q$ 下，削减 $\hat{\boldsymbol w}$ 各方向上的权值，削减比例由损失函数 $L(\hat{\boldsymbol w})$ 在这个方向的凸性决定：
凸性越强， $\lambda_i$ 越大，说明这个方向上 $\hat{\boldsymbol w}$ 的变化对 $L(\hat{\boldsymbol w})$ 影响大，那么这个方向上对 $\hat{\boldsymbol w}$ 的削减就小
反之凸性越弱， $\lambda_i$ 越小，说明这个方向上 $\hat{\boldsymbol w}$ 的变化对 $L(\hat{\boldsymbol w})$ 影响小，那么这个方向上对 $\hat{\boldsymbol w}$ 的削减就大

L1正则为什么会带来稀疏性

还是考虑线性回归：

$L(\boldsymbol w) = ||y-\sum_{j} x_j w_j||_2^2 + \lambda \sum_j |w_j|$

对 $w_j$ 求导：

$\begin{aligned} \frac{\partial L(\boldsymbol w)}{\partial w_j} = 2(\sum_j x_j w_j - y)x_j + \begin{cases} -\lambda& w_j < 0\\ [-\lambda,\lambda]& w_j =0\\ \lambda& w_j > 0\\ \end{cases} \end{aligned}$

记 $a_j = 2 x_j^2, b_j = 2(y - \sum_{\tilde{j} \neq j} x_{\tilde{j}} w_{\tilde{j}}) x_j$ ，那么上式可以写成：
$\begin{aligned} \frac{\partial L(\boldsymbol w)}{\partial w_j} = (a_j w_j - b_j) + \begin{cases} -\lambda& w_j < 0\\ [-\lambda,\lambda]& w_j =0\\ \lambda& w_j > 0\\ \end{cases} \end{aligned}$

$\Rightarrow w_j^* = \begin{cases} \frac{b_j + \lambda}{a_j}& w_j < 0\\ 0& w_j =0\\ \frac{b_j - \lambda}{a_j}& w_j > 0\\ \end{cases}$

$\Rightarrow w_j^* = \begin{cases} \frac{b_j + \lambda}{a_j}& b_j < -\lambda\\ 0& b_j \in [-\lambda,\lambda]\\ \frac{b_j - \lambda}{a_j}& b_j > \lambda\\ \end{cases}$

可见 L1正则的参数 $\lambda$ 越大，模型就越稀疏。

再观察 $b_j = 2(y - \sum_{\tilde{j} \neq j} x_{\tilde{j}} w_{\tilde{j}}) x_j$ ，刻画的是在丢掉参数 $w_j$ 之后，估计值与真实值间的差距。

$b_j|$ 越小，表明参数 $w_j$ 的重要性越弱，因此模型越倾向于将 $w_j$ 置为零。
$b_j|$ 越大，表明参数 $w_j$ 的重要性越强，因此模型越倾向于保留 $w_j$

前面我们推导了加上L2正则对最优值 $\hat{\boldsymbol w}$ 的改变的数学形式：

$(\boldsymbol Q \boldsymbol w)_i = \frac{\lambda_i}{\lambda_i + \alpha} (\boldsymbol Q \hat{\boldsymbol w})_i$

类似的，我们也可以推导L1正则对最优值 $\hat{\boldsymbol w}$ 的改变的数学形式。已知不加正则化项时 $\boldsymbol w$ 的解为： $\hat{\boldsymbol w} = (\boldsymbol X^T \boldsymbol X)^{-1} \boldsymbol X \boldsymbol y$ 。为了后面可以得到清晰的表达式，不妨假设 $\boldsymbol X^T \boldsymbol X =I$ ，这个效果可以通过提前对数据做预处理（例如PCA）达到。

此时损失函数：
$L(\boldsymbol w) = \frac{1}{2} || \boldsymbol y - \boldsymbol X^T \boldsymbol w ||^2 + \frac{1}{2} \alpha ||\boldsymbol w||_1^2$

对损失函数求导，并将 $\boldsymbol X^T \boldsymbol X =I$ 以及 $\hat{\boldsymbol w_j} = (\boldsymbol X \boldsymbol y)_j$ 可得：
$\begin{aligned} \frac{\partial L(\boldsymbol w)}{\partial \boldsymbol w_j} &= (\boldsymbol X^T \boldsymbol X \boldsymbol w_j - (\boldsymbol X \boldsymbol y)_j ) + \alpha \text{sign}|\boldsymbol w_j|\\ &= \boldsymbol w_j - \hat{\boldsymbol w_j}+ \alpha \text{sign}|\boldsymbol w_j| \end{aligned}$

$\frac{\partial L(\boldsymbol w)}{\partial \boldsymbol w_j} =0，\Rightarrow$

$\begin{aligned} \boldsymbol w_j &= \hat{\boldsymbol w_j} - \alpha \text{sign}|\boldsymbol w_j| \\ &= \text{sign}(\hat{\boldsymbol w_j}) \text{ max} \{|\hat{\boldsymbol w_j}| - \alpha, 0\} \end{aligned}$

由此有结论：

$|\hat{\boldsymbol w_j}| < \alpha$ 时：L1正则会将这个分量退化为 0
$|\hat{\boldsymbol w_j}| \geq \alpha$ 时：L1正则不会将这个分量退化为 0，而仅仅是在这个方向上移动 $\alpha$ 的距离

从最大后验角度看L1正则和L2正则

由前文所述，最大后验估计 = 最大似然估计 + 参数先验：
$\begin{aligned} \hat{\Theta} &= \text{argmax } P(\Theta |x_1, \cdots, x_n)\\ &= \text{argmax} \sum_{i=1}^n logP(x_i|\Theta) + logP(\Theta) \end{aligned}$

L1正则：相当于认为 $\Theta$ 服从 Laplace(0, $\frac{1}{\lambda}$ ) 分布，
$\text{log}P(\Theta) = \text{log} \frac{\lambda}{2} e^{-\lambda|\Theta|} = -\lambda|\Theta| + \text{log} \frac{\lambda}{2}$

L2正则：相当于认为 $\Theta$ 服从正态分布 $\mathcal{N}(0,\frac{1}{2\lambda})$ ，
$\text{log}P(\Theta) = \text{log} \sqrt{\frac{\lambda}{\pi}} e^{\lambda \Theta^T \Theta} = \lambda \Theta^T \Theta + \text{log} \sqrt{\frac{\lambda}{\pi}}$

观察正态分布和拉普拉斯分布的图形：

不难发现拉普拉斯分布在0处的图形更尖，概率值更大，也就是说相比正态分布，拉普拉斯分布更容易让参数取为0。这也从一个角度解释了L1正则的稀疏性由来。

#########################################################################

机器学习中评价指标

精确率和召回率

对于分类模型，假如有 $C$ 个类别，那么对于任意类别 $c$ ，有：

真正例(TP)：样本真实类别为 $c$ ，并且模型也预测为 $c$ 的数量：
$TP_c = \sum_{i=1}^n \boldsymbol I(y_i = \hat{y_i} = c)$
假负例(FN)：样本真实类别为 $c$ ，但是模型将它预测为其他类别的数量：
$FN_c = \sum_{i=1}^n \boldsymbol I(y_i = c \cap \hat{y_i} \neq c)$
假正例(FP)：样本真实类别为其他类别，但是模型将它预测为 $c$ 的数量：
$FP_c = \sum_{i=1}^n \boldsymbol I(y_i \neq c \cap \hat{y_i} = c)$
真负例(TN)：样本真实类别为其他类别，并且模型也将它预测为其他类别的数量，对类别 $c$ 来说，这种情况一般不需要关注。

精确率，也叫查准率，类别 $c$ 的查准率是所有预测为类别 $c$ 的样本中预测正确的比例:
$\mathcal{P_c} = \frac{TP_c}{TP_c+FP_c}$

召回率，也叫查全率，类别 $c$ 的查全率是所有真实标签为类别 $c$ 的样本中预测正确的比例:
$\mathcal{R_c} = \frac{TP_c}{TP_c+FN_c}$

F1 score，是一个综合指标，为精确率和召回率的调和平均：
$\mathcal{F_c} = \frac{2*\mathcal{P_c}\mathcal{R_c}}{\mathcal{P_c}+\mathcal{R_c}}$

计算分类算法在所有类别上的总体精确率，召回率和F1 score：
$\begin{aligned} \mathcal{P} &= \frac{1}{C}\sum_{c=1}^C \mathcal{P_c}\\ \mathcal{R} &= \frac{1}{C}\sum_{c=1}^C \mathcal{R_c}\\ \mathcal{F} &= \frac{2*\mathcal{P}\mathcal{R}}{\mathcal{P}+\mathcal{R}} \end{aligned}$

交叉验证

交叉验证（Cross-Validation）是一种比较好的衡量机器学习模型的统计分析方法，可以有效避免划分训练集和测试集时的随机性对评价结果造成的影响．我们可以把原始数据集平均分为 $K$ 组不重复的子集，每次选 $K - 1$ 组子集作为训练集，剩下的一组子集作为验证集．这样可以进行 $K$ 次试验并得到 $K$ 个模型，将这 $K$ 个模型在各自验证集上的错误率的平均作为分类器的评价．