深度学习花书学习笔记第七章深度学习中的正则化

最新推荐文章于 2024-06-23 15:10:17 发布

liutianheng654

最新推荐文章于 2024-06-23 15:10:17 发布

阅读量1.6k

点赞数

分类专栏：机器学习深度学习花书读书笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/liutianheng654/article/details/82886758

版权

机器学习同时被 2 个专栏收录

24 篇文章 4 订阅

订阅专栏

深度学习花书读书笔记

15 篇文章 16 订阅

订阅专栏

正则化：减少测试误差的策略统称，可能会增加训练误差。

参数范数惩罚

在目标函数后面添加一项参数惩罚项 $\mho (\theta )$ ，参数越多越复杂，则惩罚越大。

根据对参数的惩罚方式不一样，分为以下几种：

$L^{2}$ 正则化：

$\mho (\theta ) = \frac{1}{2}\left \| w \right \|_{2}^{2}$ ，也被称为岭（Ridge）回归。

书上是上述公式，但是不知道右下角那个2什么意思，好像有问题呀。但实际意义就是权值向量各元素平方和再求平方根。用于防止过拟合。

主要用于权重衰减。原理即通过添加正则项，缩放权重w的分量。

$L^{1}$ 正则：

$\mho (\theta ) = \left \| x \right \|$ ,也称lasso回归，各权值向量各绝对值之和。用于特征选择产生稀疏模型。

原理不再时缩放w，而是添加一项和w同向的常数，最终使一些不重要的参数推为0。

作为约束的范数惩罚

显式约束和重投影技术。

类似第四章的方式，加上一个约束条件后，转换为求对等问题的方式。

书中说这种方式还不错，但是好像没见人用过呀。。

正则化和欠约束问题

数据集增强

增加泛化能力的一个很好的方法就是增大训练的数据量，但是数据量不足的情况下只能通过造假数据了。

数据集增强就是在原有的数据集下进行一些小变换来生成新的数据集。主要应用在图形上的一些变换吧，如旋转平移裁剪。

还有语音识别中加入少量噪声的方式。

噪声鲁棒性

不仅可以对输入增加噪声，还可以对权重增加噪声，让模型正则化；给输出增加噪声，含义就是不相信输出一定时真的，存在一定的错误率，从而让模型正则化更强。

半监督学习

就是充分利用数据吧，没有具体介绍。自己上网查阅资料补上后面。

多任务学习

不同的学习任务共享部分通用的参数。主要意思就是迁移学习吧感觉。

提前终止

early stopping。

在训练的适合同时判断随着是否验证集上效果更好，同时记录当时的训练轮数。因为随着训练的轮数增加，一般验证集的效果时一个U型的，我们期望通过earlystopping取到最优点轮数。取到最优点轮数k后，有两种训练方式：

将验证集加入训练集，参数恢复随机，重新训练k次
保留当前参数，将验证集加入后继续训练，当效果达到原有k轮时停止。

其原理类似L2正则。为什么类似L2原理太复杂，回头再看

参数绑定和参数共享

对参数添加对应关系的约束，如参数a等于参数b，就是参数绑定

强制某些参数一样，就是参数共享。最常见的就是cnn，显著降低参数数量，在不需要增加训练数据的情况下提高网络大小。

稀疏表示

相对于L1对特征值和模型参数的直接稀疏，稀疏表示惩罚神经网络中的激活单元，间接惩罚模型参数。具体方式也没看懂。。

Bagging和其他集成方法

主要有bagging,boosting,ensemble三种

bagging：

有放回的抽取训练样本。导致产生不同的训练样本，而后通过不同的训练样本，训练产生不同的结果，而后多个结果综合得到最终结果的方式。可以将多个弱分类器产生强分类器，如随机森林。

boosting:

在同样的训练机上多次训练，每次可以采用不同的算法，每次运算时，样本根据上次运算的结果，赋予不同的权重，错分的赋予更高的权重，而后进行训练，最终将多个结果综合，代表性的有xgboost，gbdt

blending:

用不相交的数据集训练，最后取平均。

stacking:

将样本分为不相交的部分，通过一部分训练得到若干学习器，在另一部分测试所得学习器。将预测结果作为输入，真实结果作为输出，训练更高级学习器。不是很理解，找个具体的算法研究后面。

Dropout

训练时随机让网络中的部分节点失活，防止过拟合。最终使用的时候全部正常。原理类似bagging

貌似这个方式和batch normalize不能同时使用。

对抗训练

在有对抗扰动的训练集样本上训练网络。

因为神经网络主要是基于线性模块构建的，多个输入的线性函数，输出容易非常迅速的改变，如每个参数增加x，则总共增加w*x之多，所以局部敏感。容易被欺骗。

感觉目前主要的应用就是生成对抗网络（GAN）,后面会专门写相关介绍，还是很厉害的网络。

切面距离、正切传播和流形正切分类器

流形学习中用到，参照前面那章，后面具体讲解。

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。