MobileNet 进化史: 从 V1 到 V3(V3篇)
这部分内容总共由如下 3 篇文章构成。
- MobileNet 进化史: 从 V1 到 V3(V1篇)
- MobileNet 进化史: 从 V1 到 V3(V2篇)
- MobileNet 进化史: 从 V1 到 V3(V3篇)
- MobileNet实战:基于 MobileNet 的人脸表情分类
1. 前言
V3 保持了一年一更的节奏,Andrew G. Howard 等于 2019 年又提出了 MobileNet V3。文中提出了两个网络模型, MobileNetV3-Small 与 MobileNetV3-Large 分别对应对计算和存储要求低和高的版本。具体可以参考原始论文 Searching for MobileNetV3。
这回的标题(Searching for MobileNetV3)说的不是 V3 里面有什么,而是说的 V3 是怎么来的。Searching 说的是网络架构搜索(NAS),即 V3 是通过搜索和网络优化而来。
这里我们并不讨论 V3 是如何得来的(其实这本来是论文的一大亮点,但是因为根本没有玩过。。。),仅仅是对 V3 网络本身进行总结。
2. 对 V2 最后几层的修改
作者发现 V2 网络最后一部分,用 1x1 的网络来提供 feature 的维度,从而提高预测的精度,但是这一部分也会造成一定的延时,为了减少延时,作者把 average pooling 提前,这样的话,这样就提前把 feature 的 size 减下来了(pooling 之后 feature size 从 7x7 降到了 1x1)。这样一来延时减小了,但是试验证明精度却几乎没有降低。
3. h-swish
这个得先说说 swish(也是 google 自家人搞出来的),说是这个激活函数好用,替换 ReLU 可以提高精度,但是这个激活函数(主要是 σ ( x ) \sigma(x)