【吴恩达Deep Learning】初学者学习记录3(正则化/减小误差)

目录

1.矩阵的维度

2.正则化(减小测试误差的方法)

1)逻辑回归中实现正则化

2)​参数

3)神经网络的正则化

4)正则化减少过拟合的原理 

3.dropout(随机失活)正则化

1)原理

2)inverted dropout(反向随机失活)

3)小结

4.其它正则化的方法

1)数据扩增​

2)early stopping 


1.矩阵的维度

维度的统一能让我们在写代码时减少bug,其中n^{[i]}表示的是第i层的节点数,当多个样本时(n^{[0]},1)就会变成(n^{[0]},m),m就是样本数,即训练集大小。

2.正则化(减小测试误差的方法)

1)逻辑回归中实现正则化

图中 L2指的是L2正则化;L1指的是L1正则化,一般多用L2正则化。

2)\lambda参数

其中\lambda这个参数是正则化参数,通常使用验证集或交叉验证来配置这个参数(调小时可以避免过度拟合的情况出现)。

在python编写中,为了方便编码我们用lambd来代替lambda正则化参数。

3)神经网络的正则化

图中该矩阵范数被称作"弗洛尼贝乌斯范数"。 

4)正则化减少过拟合的原理 

 直观理解就是\lambda增加足够大,会使W的权重接近于0(W权重减小相当于减小各方向梯度的影响,相当于减小对数据集的依赖,从而导致欠拟合)。

用另一种直观方式解释:

 以tanh函数为例,因为\lambda和W是相互冲突,当 \lambda增大,W就减小,反之亦然。当W减小时z的值也会减小,在tanh中z的值足够小时,函数图像接近为线性,在之前的课中讲过,如果每一层都是线性的,那么整个网络都是一个线性网络。即使是一个非常深的神经网络,因具有线性激活函数的特征,最终只能计算线性函数。

所以该情况下,它不适用于非常复杂的决策以及过度拟合数据集的非线性决策边界,如图:

3.dropout(随机失活)正则化

1)原理:

假设左侧神经网络存在过拟合,将神经网络复制,dropout会遍历网络的每一层并设置消除神经网络中节点的概率。设置完节点概率后消除部分节点,删掉相关的连线,从而得到节点更少,规模更小的网络,然后用backprop的方法进行训练。

2)inverted dropout(反向随机失活)

图中前提:假设神网络层数L=3 

蓝线为python代码实现,绿线为inverted dropout核心(使得a3期望值不变),keep_prob为设置的概率(0.8的含义是80%保留,20%消除节点)。当keep_prob的值等于1时,意味着保留所有网络节点。

inverted dropout在除以keep-prob时可以记住上一步的操作,目的是确保即使在测试阶段不执行dropout来调整数值范围,激活函数的预期结果也不会发生改变。

3)小结

dropout多用于计算机视觉方面等(没有足够数据的地方,一直存在过拟合)。

缺点:cost函数J不再被明确定义,每次迭代都会随机移除一些节点,很难检查梯度下降的性能(方法:将keep_prob设置为1)

4.其它正则化的方法

1)数据扩增

上图将猫的图片水平翻转,放大旋转裁剪就能将数据集翻倍,但需验证是否为猫

下图为数字4,进行变形然后达到扩大数据集

这种方式虽然获得“假”数据集,但不需要什么成本,实际功能也跟正则化相似。

2)early stopping 

通过early stopping我们不单可以绘制出训练误差,代价函数J,还可以绘制验证集误差(验证集的分类误差或验证集上的代价函数,逻辑损失和对数损失等)。

通常会发现验证集误差会先下降后上升,early stopping的作用就是在某处你觉得神经网络已经足够好了就在此停下,得到验证集误差。

缺点:不能独立处理代价函数J和过拟合现象。

优点:只运行一次就能找出W中的较小值、中间值和较大值,无需像L2正则化尝试大量的参数\lambda

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值