【深度学习】神经网络的拟合问题

一、拟合问题

机器学习、深度学习中经常出现欠拟合、过拟合
一开始模型往往是欠拟合的,需要神经网络优化权重参数


1.欠拟合

  • 欠拟合现象
    模型没有很好地捕捉到数据特征,不是很好的拟合
  • 模型欠拟合
    在这里插入图片描述
  • 产生欠拟合的原因
    • 数据特征项不够(ML)
    • 训练时间不够(DL)
    • 模型过于简单(DL)
  • 解决欠拟合的方法
    • 添加其他特征
    • 增加训练时间
    • 添加多项式特征
    • 减少正则化参数

2.过拟合

  • 过拟合现象
    就是模型把数据学得太彻底,以致于噪声数据的特征也学到了

  • 模型过拟合
    在这里插入图片描述

  • 产生过拟合原因

    • 数据噪声过大
    • 训练数据太少
    • 模型训练过度
    • 模型过于复杂
  • 解决过拟合方法

    • 重新清洗数据,降低数据噪声
      样本数据 = 真实数据 + 噪声数据
    • 增大数据的训练量
    • 提前停止训练
    • 采用正则化方法,主要包括 L1、L2 正则

3.拟合现象

  • 模型刚好拟合,不偏不倚,学习的数据特征也会有更好的泛化能力
    在这里插入图片描述

二、拟合问题的处理

1.L1、L2 正则化

  • 正则化的权重图像在这里插入图片描述
    在机器学习中一般使用 L2 正则,因为 L1 具有稀疏性,L2 不具有稀疏性 L1 正则化后的权重形成的是拉普拉斯分布,而非高斯分布

  • 正则化后的权重和损失函数图像在这里插入图片描述L1 正则化权重在二维空间中形成的图像是一个菱形,三维空间是菱形状多面体
    L2 正则化权重在二维空间中形成的图像是一个圆形,三维空间是一个圆球体

  • 正则化的作用就是压制权重,让 w 变得更小,过拟合是因为权重过大导致的模型复杂化引起的
    图中 J 0 J_0 J0损失等值线和 w 形成的图像相交处就是最优解,也就是满足损失和权重的公共解
    在这里插入图片描述

  • 正则化的惩罚系数
    正则化是结构风险最小化的一种策略实现,能够有效降低过拟合

    损失函数实际上包含了两个方面:

    • 一个是训练样本误差
    • 一个是正则化项,其中 α \alpha α 起到了权衡
      在这里插入图片描述
      • α α α 近似为 0,相当于 w 圆形区域覆盖了最优解位置,此时正则化失效,容易过拟合
      • α α α 很大,w 形成的圆形区域就很小,w 离最优解的位置较远,无法找到最优解
      • 一般 w 被限制在一个很小的区域内变化,w 普遍较小且接近于 0,起正则化的效果

  • 正则化权重参数更新在这里插入图片描述
    L2 后的 w 沿着红色圆的切线方向运动,即绿色箭头运动方向与 w 的衰减方向(蓝色箭头)垂直
    w 被限定在圆形区域,靠近最优点的位置就是圆边界上的切线方向,w 的衰减方向就是圆的法向量,与切线方向垂直

在这里插入图片描述

  • 图中椭圆为原目标函数 J(w) 的一条等高线,圆为半径 C 的 L2 范数球。由于约束条件的限制,w 必须位于 L2 范数球内。考虑边界上的一点 w ,图中蓝色箭头为 J(w) 在该处的梯度方向 △J(w),红色箭头为 L2 范数球在该处的法线方向。由于 w 不能高开边界(否则违反约束条件),因而在使用梯度下降法更新 w 时,只能朝 △J(w) 在 L2 范数球上w处的切线方向更新,即图中绿色箭头的方向。如此 w 将沿着边界移动,当△J(w)与范数球上 w 处的法线平行时,此时 △J(w) 在切线方向的分量为0,w 将无法继续移动,从而达到最优解 w* (图中红色点所示)。

在这里插入图片描述

  • L1与L2的主要差别在于范数球的 w 形状差异。由于此时每条边界上 w 的切线和法线方向保持不变,在图中 w 将一直朝着 J(w) 在切线方向的分量沿着边界向左上移动。当w跨过顶点到达 w’ 时,△J(w) 在切线方向的分量变为右,上方,因而 w 将朝右上方移动。最终,w 将稳定在顶点处,达到最优解 w*。此时,可以看到 w=0,这也就是采用L1范数会使 w 产生稀疏性的原因。

2.Dropout

在这里插入图片描述
一种正则化技术,可防止网络过度拟合。在训练期间,隐藏层中一定数量的神经元随机被丢弃

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值