一个比较违反直觉的例子:
一个用于Time-series数据分类的inception网络,module结构如下,
- 用6个module组合成一个完整的网络,参数量为42万
- 用12个module组合成一个完整的网络,参数量为90万
但是1的训练的速度大概是2的2.5倍,经过查看模型构建代码发现可能的原因是1中卷积层中stride=1,2中stride=2,得到的feature map大小不同,造成2的计算量更小
一个比较违反直觉的例子:
一个用于Time-series数据分类的inception网络,module结构如下,