深度神经网络—正则化(一)L2正则化

深度学习可能存在过拟合问题——高方差,有两个解决办法,一是正则化,另一个是准备更多的数据,但由于无法时时刻刻准备足够多的训练数据或者获取数据的成本高,所以通常使用正则化的方法来避免过拟合。

正则化的主要方法有:

  1. L2正则化
  2. dropout
  3. 数据增广
  4. early stopping
  5. Bagging
  6. 在样本中增加噪声

本篇博客先介绍L2正则化

1. L2正则化公式及参数更新

我们代价函数中加入正则化,只需添加参数λ,也就是正则化参数。得到:

L2正则化:
在这里插入图片描述

记作:
在这里插入图片描述
使用梯度下降法进行参数更新:
在这里插入图片描述
该正则化项表示,无论w是什么,都试图让它变得更小。相当于给每个矩阵前面都成了一个系数(1-α λ/m),该系数小于1,因此L2范式也被称为“权重衰减”。也就是相对于未正则化之前的参数,L2正则化减小的是参数w的一个比例。

2. 为什么L2正则化有利于预防过拟合

理解一:
在这里插入图片描述
添加正则项,他可以避免数据权值矩阵过大,直观上理解就是如果正则化λ设置得足够大,权重矩阵W被设置为接近于0的值,直观理解就是把多隐藏单元的权重设为0,于是基本上消除了这些隐藏单元的许多影响,如果是这种情况,这个被大大简化了的神经网络就会变成一个很小的网络,小到如同一个逻辑回归单元,可是深度却很大,它会使这个网络从过度拟合的状态更接近于高偏差状态,但λ会存在一个中间值,于是会有一个接近’Just right’的中间状态。
更直观理解就是λ增加到足够大,W会接近于0,实际上不会发生这种情况,我们尝试消除或者至少减少许多隐藏单元的影响,最终这个网络会变得更加简单,这个神经网络越来越接近于逻辑回归,我们直觉上认为大量隐藏单元被完全消除了,其实不然,实际上该神经网络的所有隐藏单元依然会存在,但他们的影响变得更小了,神经网络变得更加简单,这样就不容易发生过拟合。
理解二:
在这里插入图片描述
如上图所示,假设激活函数使用的是tanh(z):
如果正则化参数λ变得很大,根据参数更新公式,则参数w很小,z也会相对变小,忽略b的影响,那么z的取值范围就很小,这个激活函数,也就是曲线函数tanh会相对呈线性,整个神经网络会计算离线性函数近的值,并不是一个极复杂的高度非线性函数,不会发生过拟合。

3. L1正则化

L1正则化: 代价函数:
在这里插入图片描述
记作:
在这里插入图片描述
使用梯度下降法进行参数更新:
在这里插入图片描述
其中,
在这里插入图片描述
由于sgn函数是一个常量,因此参数w减少的是个常量。
和L2正则化的参数更新公式对比,可以发现:
当w在[1,+∞)时,L2正则化比L1正则化有更快的减小速率;
当w在(0,1]时,L1正则化比L2正则化有更快的减小速率;
并且,当w越小时,L1正则化更容易减小到接近于0,而L2正则化则不易变动。
因此,L1正则化会获得更多的接近于0的w,所以L1正则化后的参数更具有稀疏性

4. L1,L2正则化总结
  1. L1正则化减少的是一个常量,L2正则化减少的是权重的固定比例;
  2. 参数更新的快慢取决于参数本身的大小,参数较大时L2正则化快,参数较小时L1正则化快;
  3. L1正则化使参数稀疏,L2正则化使参数平滑(L1会趋向于产生少量的特征那个,而其他特征都是0,而L2会选择更多的特征,这些特征会接近于0)
  4. 实践中L2正则化通常优于L1正则化;
  • 9
    点赞
  • 68
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
卷积神经网络(Convolutional Neural Network, CNN)是一种专门针对图像、视频等结构化数据设计的深度学习模型,它在计算机视觉、语音识别、自然语言处理等多个领域都有广泛应用。CNN的核心设计理念源于对生物视觉系统的模拟,尤其是大脑皮层中视觉信息处理的方式,其主要特点包括局部感知、权重共享、多层级抽象以及空间不变性。以下是CNN技术的详细介绍: ### **1. 局部感知与卷积操作** **卷积层**是CNN的基本构建块,它通过使用一组可学习的滤波器(或称为卷积核)对输入图像进行扫描。每个滤波器在图像上滑动(卷积),并以局部区域(感受野)内的像素值与滤波器权重进行逐元素乘法后求和,生成一个输出值。这一过程强调了局部特征的重要性,因为每个滤波器仅对一小部分相邻像素进行响应,从而能够捕获图像中的边缘、纹理、颜色分布等局部特征。 ### **2. 权重共享** 在CNN中,同一滤波器在整个输入图像上保持相同的权重(参数)。这意味着,无论滤波器在图像的哪个位置应用,它都使用相同的参数集来提取特征。这种权重共享显著减少了模型所需的参数数量,增强了模型的泛化能力,并且体现了对图像平移不变性的内在假设,即相同的特征(如特定形状或纹理)不论出现在图像的哪个位置,都应由相同的滤波器识别。 ### **3. 池化操作** **池化层**通常紧随卷积层之后,用于进一步降低数据维度并引入一定的空间不变性。常见的池化方法有最大池化和平均池化,它们分别取局部区域的最大值或平均值作为输出。池化操作可以减少模型对微小位置变化的敏感度,同时保留重要的全局或局部特征。 ### **4. 多层级抽象** CNN通常包含多个卷积和池化层堆叠在一起,形成深度网络结构。随着网络深度的增加,每一层逐渐提取更复杂、更抽象的特征。底层可能识别边缘、角点等低级特征,中间层识别纹理、部件等中级特征,而高层可能识别整个对象或场景等高级语义特征。这种层级结构使得CNN能够从原始像素数据中自动学习到丰富的表示,无需人工设计复杂的特征。 ### **5. 激活函数与正则化** CNN中通常使用非线性激活函数(如ReLU、sigmoid、tanh等)来引入非线性表达能力,使得网络能够学习复杂的决策边界。为了防止过拟合,CNN常采用正则化技术,如L2正则化(权重衰减)来约束模型复杂度,以及Dropout技术,在训练过程中随机丢弃一部分神经元的输出,以增强模型的泛化性能。 ### **6. 应用场景** CNN在诸多领域展现出强大的应用价值,包括但不限于: - **图像分类**:如识别图像中的物体类别(猫、狗、车等)。 - **目标检测**:在图像中定位并标注出特定对象的位置及类别。 - **语义分割**:对图像中的每个像素进行分类,确定其所属的对象或背景类别。 - **人脸识别**:识别或验证个体身份。 - **图像生成**:通过如生成对抗网络(GANs)等技术创建新的、逼真的图像。 - **医学影像分析**:如肿瘤检测、疾病诊断等。 - **自然语言处理**:如文本分类、情感分析、词性标注等,尽管这些任务通常结合其他类型的网络结构(如循环神经网络)。 ### **7. 发展与演变** CNN的概念起源于20世纪80年代,但其影响力在硬件加速(如GPU)和大规模数据集(如ImageNet)出现后才真正显现。经典模型如LeNet-5用于手写数字识别,而AlexNet、VGG、GoogLeNet、ResNet等现代架构在图像识别竞赛中取得突破性成果,推动了CNN技术的快速发展。如今,CNN已经成为深度学习图像处理领域的基石,并持续创新,如引入注意力机制、残差学习、深度可分离卷积等先进思想。 综上所述,卷积神经网络通过其独特的局部感知、权重共享、多层级抽象等特性,高效地从图像数据中提取特征并进行学习,已成为解决图像和视频处理任务不可或缺的工具,并在众多实际应用中取得了卓越的效果。
深度卷积神经网络中的正则化主要有两种形式,即L2正则化和L1正则化L2正则化是指对网络的权值进行平方和开根号的操作,它在回归任务中也被称为岭回归或权值衰减,它的作用是减轻过拟合问题。L2正则化通过限制权重的大小,使得网络的学习能力受到一定的约束,从而防止模型过度依赖某些特征,提高模型的泛化能力。 另一种正则化方式是L1正则化,它在二维情况下可以理解为对权值施加一个正方形的限制区域。L1正则化的特点是,它更容易使得权值变为零,从而让模型具有稀疏性。这意味着L1正则化可以帮助选择更少的特征,从而简化模型并减少冗余信息。 在深度卷积神经网络中,正则化可以帮助提高模型的泛化能力,减少过拟合问题。具体来说,L2正则化可以减小网络权重的大小,降低模型对于个别数据点的敏感性,从而提高模型的鲁棒性。而L1正则化则可以通过权值稀疏性来简化模型,并过滤掉不重要的特征,以提高模型的解释性和泛化性能。 因此,深度卷积神经网络中的正则化方法可以通过限制权重大小和稀疏性来改善模型的性能。通过适当选择和调整正则化参数,可以平衡模型的复杂度和准确性,从而得到更好的训练效果。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* *3* [卷积神经网络(CNN)介绍07-正则化](https://blog.csdn.net/lmx_smile/article/details/107078738)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 100%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值