PP-LCNet-A Lightweight CPU Convolutional Neural Network

最新推荐文章于 2024-08-12 20:33:07 发布

冬日and暖阳

最新推荐文章于 2024-08-12 20:33:07 发布

阅读量899

点赞数 1

分类专栏：深度学习论文文章标签： CNN

本文链接：https://blog.csdn.net/qq_29007291/article/details/121786440

版权

深度学习同时被 2 个专栏收录

4 篇文章 0 订阅

订阅专栏

论文

3 篇文章 0 订阅

订阅专栏

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Fm2cyHjA-1638932217067)(https://secure1.wostatic.cn/static/jaD8YQtazqQauDSKvEym51/image.png)]

在这里插入图片描述

一、Introduction

动机

由于MKLDNN库的限制，现有的NN在速度上无法在Inter-CPU上得到最大的提升，本文设计了一种专为Inter CPU准备的轻量级网络，设计这个网络的时候，我们主要考虑了一下几个问题

如何让网络获取更强的特征表达而不增加推理时延？
到底是什么因素/模块帮助CPU端的轻量级网络提高accuracy？
设计基于CPU的轻量级网络的时候，如何有效的结合不同的策略？

贡献

总结了一系列的方法，来提升accuracy但是不增加inference time
给出了如何结合这些方法来最终获得一个好结果

二、Approach

2.1 BaseNet

很多轻量级CNN在ARM上速度很快，但是在Interl-CPU上表现一般，大部分原因是因为没有充分利用MKLDNN库。

我们使用MobileNet V1里面的DepthSepConv作为基础模块。这个模块，无add，无cat 操作，不仅会拖累模型的速读，而且对于轻量级模型的accuracy提升无用（暂时无法理解为什么add，cat这种类似于特征融合的操作对于轻量级模型无用）
DepthSepConv这个模块在Inter CPU 加速库中已经被高度优化过了，因此比inverted block和shufflenet-block更快
我们基于DepthSepConv堆叠形成了BaseNet，然后添加了一些现有的成熟的技术，构建了PP-LCNet

个人总结：已知Inter CPU的加速快对于 DepthSepConv做了深度优化，且add，cat几乎无收益，进而设计了一个专用于Inter CPU的网络

2.2 激活函数使用H-Swish

EfficientNet使用Swish获得了比ReLU更好的性能；

MobileNet V3使用Hard Swish获得了比Swish更好的性能，

我们也在BaseNet中使用Hard Swish替换了原先的ReLu，也获得了更好的accuracy，而且不增加inference time

2.3 把SE模块插入到合适的位置

SE模块确实很有效，但是基于Inter CPU上，SE会增加推理时间
经过大量实验证明，位于NN深层的SE模块比其他位置的SE模块起到了更重要的作用，因此我们仅在NN的深层加入了SE模块（这个几乎就是印证了微软的动态卷积的结论，注意力机制在深层更有效）

2.4 使用更大的卷积核

在MixNet中，作者证明了使用不同大小的kernel的组合可以获得更好的效果，但这明显会增加推理时间。所以我们决定，每一层卷积仅使用一种大小的kernel，并且确保使用大kernel的时候既能提升accuracy也不能增加latency。（这其实言外之意就是在小的feature map上才使用大的kernel-size）

经过，本文在NN的尾部使用5×5的kernel size替代了3×3的kernel，可以获得与替换所有卷积层近似的效果，这个结论和SE的替换很像。

2.5 在GAP之后使用一个高维的1×1卷积

在PP-LCNet中，最后一个卷积是512维度，如果直接在GAP(输出为512维向量)之后接上classification layer会导致丢失特征的结合（？？？？？？）。为了使网络具有更好的拟合能力，我们在GAP之后添加了一个1280的1×1卷积（等价于一个FC），这使得具有更好的能力，同时增加的inference time很少