小结3:过拟合欠拟合及其解决方案;梯度消失、梯度爆炸;循环神经网络进阶

过拟合、欠拟合及其解决方法

过拟合问题(high variance)

过拟合问题:是指模型太过复杂,对训练数据效果好,而对新样本泛化能力较弱。
(训练误差低 验证误差高)
产生过拟合的可能原因,可能为其中之一或者都有:

  • 模型的复杂度过高。如网络太深,神经网络中;或者线性回归中模型的阶次
  • 过多的变量特征
  • 训练数据过少
    如何解决过拟合:
  • 降低模型复杂度
  • 减少特征数目
  • 增加数据
  • 正则化等

欠拟合问题(high bias)

欠拟合:指模型太过简单,不能对训练数据效果不好,对新样本泛化能力也不好。
如何解决欠拟合

  • 增加模型复杂度
  • 添加特征
  • 增加数据
  • 减少正则化参数大小等

梯度消失及梯度爆炸

当层数较多时,梯度的计算也容易出现消失或爆炸。
解决方法:
1 随机初始化
2 He初始化
3 Xavier随机初始化
几个概念:
协变量偏移
这里我们假设,虽然输入的分布可能随时间而改变,但是标记函数,即条件分布P(y∣x)不会改变。虽然这个问题容易理解,但在实践中也容易忽视。
标签偏移
当我们认为导致偏移的是标签P(y)上的边缘分布的变化,但类条件分布是不变的P(x∣y)时,就会出现相反的问题。当我们认为y导致x时,标签偏移是一个合理的假设。例如,通常我们希望根据其表现来预测诊断结果。在这种情况下,我们认为诊断引起的表现,即疾病引起的症状。有时标签偏移和协变量移位假设可以同时成立。例如,当真正的标签函数是确定的和不变的,那么协变量偏移将始终保持,包括如果标签偏移也保持。有趣的是,当我们期望标签偏移和协变量偏移保持时,使用来自标签偏移假设的方法通常是有利的。这是因为这些方法倾向于操作看起来像标签的对象,这(在深度学习中)与处理看起来像输入的对象(在深度学习中)相比相对容易一些。

病因(要预测的诊断结果)导致 症状(观察到的结果)。

训练数据集,数据很少只包含流感p(y)的样本。

而测试数据集有流感p(y)和流感q(y),其中不变的是流感症状p(x|y)。
概念偏移
概念偏移
另一个相关的问题出现在概念转换中,即标签本身的定义发生变化的情况。这听起来很奇怪,毕竟猫就是猫。的确,猫的定义可能不会改变,但我们能不能对软饮料也这么说呢?事实证明,如果我们周游美国,按地理位置转移数据来源,我们会发现,每个地区对软饮料的名称不一样

循环网络进阶

涉及GRU,LSTM、深度循环神经网络

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值