主要参考了这篇csdn博客,但是存在一些问题:EfficientNetV2网络详解
Questions
1. Depthwise convolutions结构为什么相比普通卷积拥有更少的参数以及更小的FLOPs?
假设作用的特征图是 H * W * C,那么一个3 * 3的普通卷积的参数量就是 3 * 3 * C * C = 9C^2,而一个深度可分离卷积对应的参数量就是 3 * 3 * C = 9C,这个非常好理解,普通卷积和深度可分离卷积都需要C个卷积核,但是普通卷积的卷积核是三维的,是同时作用在原始的C个通道的,而深度可分离卷积的卷积核是二维的,是只用单个通道的。
在不改变图像尺寸的情况下,普通卷积的计算量是 3 * 3 * C * H * W * C = 9HWC^2, 深度可分离卷积的计算量是 3 * 3 * H * W * C = 9 HWC。
2. 为什么说理论计算量Flops小不代表推理速度快?
我觉得是因为理论计算量是计算的次数,并没有把每种数学计算所消耗时间的不同考虑在内,比如求导和求和操作的耗时肯定不同。
3. 为什么说增大参数量反而可以提高训练的效率?![在这里插入图片描述](https://img-blog.csdnimg.cn/008d4583bf914aad9cb3fb42ffb2d9dc.png)
暂未透彻理解,只谈自己的猜测,欢迎大佬指正小弟。
这里提到了将注意力加入到卷积模块、在大规模数据集上使用transformer,我觉得说明了:注意力的计算过程没有卷积耗时。注意力中Q、K、W以及权重的计算都依靠的是线性转化,包含相加求和的原子操作;卷积上本质也是相加求和等原子操作,但是求和的时候需要找到准确的 3 * 3网格区域,个人怀疑底层的这个定位操作会比较耗时。
4 progressive learning 怎么简短快速理解?![在这里插入图片描述](https://img-blog.csdnimg.cn/8adedea1846747c384ca838cbae24e38.png)
论文中是渐进式地增加图片尺寸来提高训练速度,**其属于渐进式训练的一种类型。**小图片给的正则化强度比较弱,这是因为小图片会使得模型学习到的东西也相对有限一些;而大尺度的图片会给一个较强的正则化强度来避免过拟合。
5 NAS搜索的目的直接从为模型效果服务演变成了优化训练和参数效率,这是通过怎么改变NAS的搜索原理实现的?
只贴出原论文的介绍,希望大佬看到了能解答一下吧。