【吴恩达Deep Learning】初学者学习记录3（正则化/减小误差）

最新推荐文章于 2023-05-22 13:48:04 发布

Yory__

最新推荐文章于 2023-05-22 13:48:04 发布

阅读量980

点赞数

文章标签：深度学习人工智能机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_62127680/article/details/122906311

版权

目录

1.矩阵的维度

2.正则化（减小测试误差的方法）

1）逻辑回归中实现正则化

3）神经网络的正则化

4）正则化减少过拟合的原理

3.dropout(随机失活)正则化

2）inverted dropout（反向随机失活）

4.其它正则化的方法

1）数据扩增

2）early stopping

1.矩阵的维度

维度的统一能让我们在写代码时减少bug，其中 $n^{[i]}$ 表示的是第i层的节点数，当多个样本时( $n^{[0]}$ ，1)就会变成( $n^{[0]}$ ,m),m就是样本数，即训练集大小。

2.正则化（减小测试误差的方法）

1）逻辑回归中实现正则化

图中 L2指的是L2正则化；L1指的是L1正则化，一般多用L2正则化。

2) $\lambda$ 参数

其中 $\lambda$ 这个参数是正则化参数，通常使用验证集或交叉验证来配置这个参数（调小时可以避免过度拟合的情况出现）。

在python编写中，为了方便编码我们用lambd来代替lambda正则化参数。

3）神经网络的正则化

图中该矩阵范数被称作"弗洛尼贝乌斯范数"。

4）正则化减少过拟合的原理

直观理解就是 $\lambda$ 增加足够大，会使W的权重接近于0（W权重减小相当于减小各方向梯度的影响，相当于减小对数据集的依赖，从而导致欠拟合）。

用另一种直观方式解释：

以tanh函数为例，因为 $\lambda$ 和W是相互冲突，当 $\lambda$ 增大，W就减小，反之亦然。当W减小时z的值也会减小，在tanh中z的值足够小时，函数图像接近为线性，在之前的课中讲过，如果每一层都是线性的，那么整个网络都是一个线性网络。即使是一个非常深的神经网络，因具有线性激活函数的特征，最终只能计算线性函数。

所以该情况下，它不适用于非常复杂的决策以及过度拟合数据集的非线性决策边界，如图：

3.dropout(随机失活)正则化

1）原理：

假设左侧神经网络存在过拟合，将神经网络复制，dropout会遍历网络的每一层并设置消除神经网络中节点的概率。设置完节点概率后消除部分节点，删掉相关的连线，从而得到节点更少，规模更小的网络，然后用backprop的方法进行训练。

2）inverted dropout（反向随机失活）

图中前提：假设神网络层数L=3

蓝线为python代码实现，绿线为inverted dropout核心（使得a3期望值不变），keep_prob为设置的概率（0.8的含义是80%保留，20%消除节点）。当keep_prob的值等于1时，意味着保留所有网络节点。

inverted dropout在除以keep-prob时可以记住上一步的操作，目的是确保即使在测试阶段不执行dropout来调整数值范围，激活函数的预期结果也不会发生改变。

3）小结

dropout多用于计算机视觉方面等（没有足够数据的地方，一直存在过拟合）。

缺点：cost函数J不再被明确定义，每次迭代都会随机移除一些节点，很难检查梯度下降的性能（方法：将keep_prob设置为1）

4.其它正则化的方法

1）数据扩增

上图将猫的图片水平翻转，放大旋转裁剪就能将数据集翻倍，但需验证是否为猫

下图为数字4，进行变形然后达到扩大数据集

这种方式虽然获得“假”数据集，但不需要什么成本，实际功能也跟正则化相似。

2）early stopping

通过early stopping我们不单可以绘制出训练误差，代价函数J，还可以绘制验证集误差(验证集的分类误差或验证集上的代价函数，逻辑损失和对数损失等)。

通常会发现验证集误差会先下降后上升，early stopping的作用就是在某处你觉得神经网络已经足够好了就在此停下，得到验证集误差。

缺点：不能独立处理代价函数J和过拟合现象。

优点：只运行一次就能找出W中的较小值、中间值和较大值，无需像L2正则化尝试大量的参数 $\lambda$ 值

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【吴恩达Deep Learning】初学者学习记录3（正则化/减小误差）

目录1.矩阵的维度2.正则化（减小测试误差的方法）1）逻辑回归中实现正则化2)参数3）神经网络的正则化4）正则化减少过拟合的原理3.dropout(随机失活)正则化1）原理2）inverted dropout（反向随机失活）3）小结4.其它正则化的方法1）数据扩增2）early stopping1.矩阵的维度维度的统一能让我们在写代码时减少bug，其中表示的是第i层的节点数，当多个样本时(，1)就会变成(,m),m就是样本数，即训练..
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。