全连接的缺点:
- 随着图片的增大参数量迅速增长
O(n2)
O
(
n
2
)
2.而且很多参数都是没什么用的,两个距离非常远的像素点相互其实没有什么关联,不需要把它们放在一起做乘加
卷积层使用步长为一的原因:
尽量在卷积层不丢失信息,只负责数据的变换,而降采样只由pooling层负责,使得这两个层之间是orthogonal,方便调参。
内存和计算时间大部分在卷积层(反向传播是需要使用中间数据计算链式求导的中间数据),而参数大多数都在FC层
瓶颈大多在于内存:
- 每一层所产生中中间结果(计算反向传播时使用),在测试时可以不用存储
- 参数的存储,如果使用带有移动平均的优化方式还有多存出几倍的参数量