Backto Model Zoo
缘起
- 直觉上:越深的网络representation能力越好,精度越高
- 理论上:深层网络应该达到至少不差于浅层网络的精度表现,因为让深层网络一部分与浅层网络等同,多余部分变成恒等 identity,二者效果就等同了。
- 实践中:随着深度的逐步增大,训练误差和测试误差反而会增大
思路
- why?: 首先,不是 over-fitting 问题,因为训练误差也变差了。其次,猜测可能是因为训练量/收敛难度 随着 深度指数增长,也就是说只要硬件够硬,时间够长,深层网络一定还是可以超越浅层网络的。但是,这并不具有实际可行性。再之后,具体而言,
- how?:学啥目标啊,直接学残差好伐!假设网络原本渐进逼近函数 H ( x ) , x H(x), x H(x),x 是 input。当这层网络是一个鸡肋网络的时候,我希望他不做任何操作即 H ( x ) = x H(x) = x