一天搞懂深度学习—学习笔记4（knowledge and tricks）

最新推荐文章于 2022-05-18 16:01:23 发布

Stray_Cat_Founder

最新推荐文章于 2022-05-18 16:01:23 发布

阅读量907

点赞数

分类专栏： deep-learning 文章标签：深度学习

本文链接：https://blog.csdn.net/u013735511/article/details/78249789

版权

deep-learning 专栏收录该内容

9 篇文章 0 订阅

订阅专栏

1.ultra deep network

世界上的摩天大楼有很多，而且大家也都一直在互相攀比谁的更高。文中给出了几个标志性建筑，Great Pyramid < Eiffel Tower < Empire State < World Trade Center < CN Tower < Burj Khalifa，有兴趣可以去查查

在神经网络的世界里，前面也提到过了，Thin and Tall会好一些，文中给出了几个经典的CNN网络层次图，如下

网络的层数越多，意味着能够提取到不同level的特征越丰富。并且，越深的网络提取的特征越抽象，越具有语义信息。原来的网络，如果简单地增加深度，会导致梯度弥散或梯度爆炸。即使通过上述方法能够训练了，但是又会出现另一个问题，就是退化问题，网络层数增加，但是在训练集上的准确率却饱和甚至下降了。这个不能解释为overfitting，因为overfit应该表现为在训练集上表现更好才对。退化问题说明了深度网络不能很简单地被很好地优化。作者通过实验证明：通过浅层网络+ y=x 等同映射构造深层模型，结果深层模型并没有比浅层网络有等同或更低的错误率，推断退化问题可能是因为深层的网络并不是那么好训练，也就是求解器很难去利用多层网络拟合同等函数。参考http://www.jianshu.com/p/e58437f39f65

2.Attention-based Model