深度学习记录--正则化(regularization)

蹲家宅宅

已于 2024-01-17 10:53:06 修改

阅读量758

点赞数 24

分类专栏：深度学习记录文章标签：深度学习人工智能

于 2024-01-17 10:52:44 首次发布

本文链接：https://blog.csdn.net/Xudong_12345/article/details/135594080

版权

深度学习记录专栏收录该内容

26 篇文章 2 订阅

订阅专栏

本文介绍了正则化在减少深度学习模型过拟合中的作用，重点讨论了L2正则化（权重衰减）和dropout（随机失活）的原理、实现以及各自的优缺点。同时提及了数据扩增和earlystopping作为应对数据不足的有效策略，但它们也存在验证需求和限制。

摘要由CSDN通过智能技术生成

什么是正则化？

正则化(regularization)是一种实用的减少方差(variance)的方法，也即避免过度拟合

几种正则化的方法

L2正则化

又被称为权重衰减(weight dacay)

在成本函数中加上正则项：

$\frac{\lambda }{2m}\sum_{l=1}^{L}\left \| w^{\left [ l \right ]} \right \|^2_{F}$

其中 $\left \| x^{\left [ l \right ]} \right \|^2_{F}=\sum_{i=1}^{n^{\left [ l-1 \right ]}}\sum_{j=1}^{n^{\left [ l\right ]}}(w^{\left [ l \right ]}_{ij})^2$

由于在w的更新过程中会递减，即权重衰减

$w^{\left [l \right ]}:= w^{\left [l \right ]}-\alpha dw^{\left [l \right ]}$

w递减的过程，实际上是w趋近于0的过程

在这个过程中，部分单元的影响逐渐减小(可以近似看作隐藏)，最终成为深层神经网络(类似线性回归)，从最开始的右图逐渐变为左图，即从high variance --> high bias

在变化的中间存在一个just right的状态，这个状态则是最优情况

缺点：

为了搜索合适的正则化参数lambda，需要进行大量验证计算，花费时间很长

dropout(随机失活)

dropout基本原理：将神经网络中的部分单元进行随机删除/失活(将它们的影响降至几乎不存在)，让原本的神经网络样本训练规模变小

常用方法：inverted dropout(反向随机失活)

设置一个概率参数keep_prob，在例子中设置为0.8，表示有0.2的概率让单元失活

设置bool矩阵d3，将a3矩阵与d3矩阵进行矩阵乘法运算，然后a3/=keep_prob，保持未被失活单元的数据的完整性

代码实现：

import numpy as np
a3=np.random.rand(3,3)
print("before dropout : \n",a3)
keep_prob=0.8
# print(a3.shape[0],a3.shape[1])
d3=np.random.rand(a3.shape[0],a3.shape[1])<keep_prob
# print("d3 = ",d3)
a3=np.multiply(a3,d3)
a3/=keep_prob
print("after dropout : \n",a3)

运行结果：