【神经网络理论】泛化性

Understanding deep learning requires rethinking generalization (zhang. 2017)

  • 作者做了一个测试,用随机label标注数据,发现网络对训练集仍有效果,(网络具有强大的能力可以“记住”训练数据)
  • 梯度下降(SGD)具有隐性的正则化效果,原因未知
  • 浅层网络也能有强大的表达能力。
  • 模型本身已经足够去表达训练数据,即便没有正则化。

On the importance of single directions for generalization
文章内容:

  • 高选择性的unit(单元)可能会对网络有害,网络不应该过分依赖某一部分
  • 增强unit之间的交互有利于网络的泛化性
  • 那些“记住”训练数据的网络 更依赖 单一的通路 single directions(网络通路),这些网络往往泛化性差,这也可以解释dropout可以增强泛化性的原因
  • 以上由ablation experiments结论得出

Sharp Minima can generalize for deep nets

  • 文章指出,通常认为flat的最小值更加平滑,容易得到好的泛化性能,这里指出sharp minima也可能得到好的泛化性能

Over-parameterization improves generalization in the XOR detection problem

  • under-writing
  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值