改善深层神经网络：超参数调试、正则化以及优化之学习笔记（week1）

最新推荐文章于 2022-02-16 19:16:30 发布

NoOne-csdn

最新推荐文章于 2022-02-16 19:16:30 发布

阅读量180

点赞数

分类专栏：机器学习深度学习

本文链接：https://blog.csdn.net/weixin_40161254/article/details/101676411

版权

机器学习同时被 2 个专栏收录

16 篇文章 0 订阅

订阅专栏

深度学习

6 篇文章 0 订阅

订阅专栏

train/dev/test sets

训练集、开发集和测试集

训练集（training set）：训练算法。

开发集（development set、hold-out set）：调整参数、选择特征，以及对学习算法作出其它决定。

测试集（test set）：开发集中选出的最优的模型在测试集上进行评估。不会据此改变学习算法或参数。

bias/variance

偏差和方差
做偏差-方差权衡
在这里插入图片描述
高偏差（high bias）：欠拟合 underfitting
高方差 high variance：过拟合 overfitting


train set error	1%	15%	15%	0.5%
Dev set error	11%	16%	30%	1%
	high variance	high bias	high bias &high variance	low bias &low variance

Basic Recipe for ML

机器学习的基本准则
高偏差high bias
solution：
表现如果说模型有高偏差即是模型甚至连训练集都不能良好拟合你能尝试的一种办法是

挑选一个新的网络比如带有更多隐藏层或更多隐藏单元的
或是延长训练时间让梯度下降法运行更长时间
或换用一些更高级的优化算法
这个办法可能有效也可能无效

高方差high variance
solution:
如果你有比较高的方差解决高方差问题的最好方法

取得更多数据（当然前提是你能获取得到这个办法才有用但有时你无法获得更多数据）
你还可以尝试正则化可以减少过拟合
找到更合适的神经网络结构

依据你问题的不同在高偏差和高方差时你应当尝试的办法有可能很不一样所以我通常用训练/开发集判断问题是在高偏差还是高方差然后根据这个来选择一些应当尝试的办法举例来说如果你有高偏差问题就算取得更多训练数据也无济于事
扩大网络几乎总是能够减小偏差而不增大方差
只要你用恰当的方式正则化的话而获得更多数据几乎总是能够减小方差而不增大偏差

正则化

正则化它是用于减小方差的一个很有用的办法在正则化中存在一点点偏差与方差间的权衡它可能会使偏差增加一点点虽然在你的网络足够巨大时增加得通常不会很多
正则化，防止过拟合，降低模型复杂度。

L1 & L2范数
首先介绍一下范数的定义，假设是一个向量，它的范数定义:
$\|x\|_{p}=\left(\sum_{i}\left|x_{i}\right|^{p}\right)^{\frac{1}{p}}$
在目标函数后面添加一个系数的“惩罚项”是正则化的常用方式，为了防止系数过大从而让模型变得复杂。在加了正则化项之后的目标函数为:
$\bar{J}(w, b)=J(w, b)+\frac{\lambda}{2 m} \Omega(w)$

式中，$\ {\lambda}/{2 m} $ 是一个常数， m 为样本个数， ${\lambda}$ 是一个超参数，用于控制正则化程度。

$L^{1}$ 正则化时，对应惩罚项为 L1 范数 :
$\Omega(w)=\|w\|_{1}=\sum_{i}\left|w_{i}\right|$
L2 正则化时，对应惩罚想为L2范数
$\Omega(w)=\|w\|_{2}^{2}=\sum_{i} w_{i}^{2}$
从上式可以看出， L1正则化通过让原目标函数加上了所有特征系数绝对值的和来实现正则化，而 L2正则化通过让原目标函数加上了所有特征系数的平方和来实现正则化。

两者都是通过加上一个和项来限制参数大小，却有不同的效果：L1 正则化更适用于特征选择，而 L2正则化更适用于防止模型过拟合。

NoOne-csdn

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
改善深层神经网络：超参数调试、正则化以及优化之学习笔记（week1）

train/dev/test sets训练集、开发集和测试集bias/variance偏差和方差高偏差（high bias）：欠拟合 underfitting高方差 high variance：过拟合 overfittingtrain set error1%Dev set error11%high varianceBasic Recipe ...
复制链接

扫一扫