【模型选择 + 过拟合和欠拟合】

菜鸟炼丹师

已于 2022-06-17 17:08:12 修改

阅读量106

点赞数 2

分类专栏： # 沐神动手学ai学习笔记深度学习文章标签：机器学习人工智能算法

于 2022-06-17 00:33:59 首次发布

本文链接：https://blog.csdn.net/chenjunheaixuexi/article/details/125321630

版权

沐神动手学ai学习笔记同时被 2 个专栏收录

14 篇文章 3 订阅

订阅专栏

深度学习

14 篇文章 0 订阅

订阅专栏

模型选择

训练误差和泛化误差

训练误差：模型在训练数据上的误差
泛化误差：模型在新数据上的误差

例子：根据摸考成绩来预测未来考试分数在过去的考试中表现很好（训练误差）不代表未来考试一定会好（泛化误差）

学生A通过背书在摸考中拿到很好成绩
学生B知道答案后面的原因

验证数据集和测试数据集

验证数据集：一个用来评估模型好坏的数据集
例如拿出50%的训练数据
不要跟训练数据混在一起（常犯错误）
测试数据集：只用一次的数据集。例如
未来的考试
我出价的房子的实际成交价
用在Kaggle私有排行榜中的数据集

K则交叉验证

在没有足够多数据时使用（这是常态）
算法：
将训练数据分割成K块
- For i = 1,…,K
  - 使用第ⅰ块作为验证数据集，其余的作为训练数据
- 报告K个验证集误差的平均
常用：K=5或10

过拟合和欠拟合

在这里插入图片描述
模型容量

拟合各种函数的能力
低容量的模型难以拟合训练数据
高容量的模型可以记住所有的训
练数据

数据复杂度
多个重要因素
- 样本个数
- 每个样本的元素个数
- 时间、空间结构
- 多样性

总结

模型容量需要匹配数据复杂度，否则可能导致欠拟合和过拟合
统计机器学习提供数学工具来衡量模型复杂度
实际中一般靠观察训练误差和验证误差

常见的过拟合处理方法

权重衰退

使用均方范数作为硬性限制

通过限制参数值的选择范围来控制模型容量
$\min l(w,b)\quad s.t.||w||^2\le\theta$
通常不限制偏移b（限不限制都差不多）
小的 $\theta$ 意味着更强的正则项

使用均方范数作为柔性限制

对每个 $\theta$ ，都可以找到 $\lambda$ 使得之前的目标函数等价于下面：
$\min l(w,b)+\frac\lambda 2||w||^2$
可以通过拉格朗日乘子证明
超参数 $\lambda$ 控制了正则项的重要程度
- $\lambda=0$ ：无作用
- $\lambda \rightarrow \infty,w^*\rightarrow0$

在这里插入图片描述
参数更新过程看权重衰退

计算梯度
$\frac{\partial}{\partial w}(l(w,b)+\frac\lambda2||w||^2))=\frac{\partial l(w,b)}{\partial w}+\lambda w$
更新参数时使用梯度下降 $w_{t+1}=w_t-\alpha\frac{\partial l(w,b)}{\partial w_t}$ ：
$w_{t+1}=(1-\alpha\lambda)w_t-\alpha\frac{\partial l(w,b)}{\partial w_t}$
通常情况下 $\alpha*\lambda$ 小于1的，因此 $w_t$ 乘以一个比1小的数，又减去一个正数，被称为权重衰退。

总结

权重衰退通过L2正则项使得模型参数不会过大，从而控制模型复杂度
正则项权重是控制模型复杂度的超参数

丢弃法（droput）

动机

一个好的模型需要对输入数据的扰动鲁棒
- 使用有噪音的数据等价于Tikhonov正则
- 丢弃法：在层之间加入噪音

无偏差的加入噪音

第对 $x$ 加入噪音 $x^{'}$ ，我们期望：
$E(x^{'})=x$
丢弃法对于每个元素进行如下搅动：
$x_i^{'}=\left\{ \begin{array}{rcl} 0 & & {with \quad probablity\quad p}\\ \frac{x_i}{1-p} & & {otherwise} \end{array} \right.$
其中 $E(x_i^{'})=p*0+(1-p)*\frac{x_i}{1-p}=x_i$

丢弃法的使用

通常将丢弃法作用在隐藏全连接层的输出上

$h=\sigma(W_1x+b_1)$ $h^{'}=dropout(h)$ $o=W_2h^{'}+b_2$ $y = s o f t m a x (o)$
在这里插入图片描述

丢弃法只在训练过程中使用，验证、推理过程不使用

总结

丢弃法将一些输出项随机置0来控制模型复杂度
常作用在多层感知机的隐藏层输出上
丢弃概率是控制模型复杂度的超参数

数值的稳定性

当神经网络深度较深时，极容易出现数值不稳定的情况。

神经网络的梯度

考虑如下有 $d$ 层的神经网络
$h^t=f_t(h^{t-2})\quad and\quad y=l\cdot f_d\cdot ...\cdot f_1(x)$
计算损失 $l$ 关于参数 $W_t$ 的梯度
$\frac{\partial l}{\partial W^t}=\frac{\partial l}{\partial h^d}\frac{\partial h^d}{\partial h^{d-1}}...\frac{\partial h^{t+1}}{\partial h^t}\frac{\partial h^t}{\partial W^t}$
这里面都是矩阵的乘法，计算量非常大

数值稳定性常见的两个问题

梯度消失： $1.5^{100}\approx4\times10^{17}$
梯度爆炸： $0.8^{100}\approx2\times10^{-10}$

举例说明

假设有以下MLP（为了简单省略偏置项）
$f_t(h^{t-1})=\sigma(W^th^{t-1})\quad其中\sigma是激活函数$ $\frac{\partial h^t}{\partial h^{t-1}}=diag(\sigma^{'}(W^th^{t-1}))(W^t)^T$ $\prod\limits_{i=t}^{d-1}\frac{\partial h^{i+1}}{\partial h^i}=\prod\limits_{i=t}^{d-1}diag(\sigma^{'}(W^ih^{i-1}))(W^i)^T$

①梯度爆炸

使用Relu作为激活函数
$\sigma(x)=\max(0,x)\quad and\quad\sigma^{'}(x)=\left\{ \begin{array}{rcl} 1 & & {x>0}\\ 0 & & {otherwise} \end{array} \right.$
$\prod\limits_{i=t}^{d-1}\frac{\partial h^{i+1}}{\partial h^i}=\prod\limits_{i=t}^{d-1}diag(\sigma^{'}(W^ih^{i-1}))(W^i)^T$ 的元素主要来自于 $\prod\limits_{i=t}^{d-1}(W^i)^T$
如果 $d - t$ 很大，同时不对参数 $W^I$ 的值进行限制，那么最后结果将会很大，造成梯度爆炸