小白大白读论文-关于EfficientNetV2论文的疑问与总结

图灵和柯南道尔的大弟子

已于 2022-08-07 21:54:45 修改

阅读量774

点赞数

分类专栏：论文阅读文章标签：深度学习计算机视觉人工智能

于 2022-08-07 16:23:06 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/good18Levin/article/details/126211696

版权

论文阅读专栏收录该内容

7 篇文章 5 订阅

订阅专栏

主要参考了这篇csdn博客，但是存在一些问题：EfficientNetV2网络详解

Questions

1. Depthwise convolutions结构为什么相比普通卷积拥有更少的参数以及更小的FLOPs？

假设作用的特征图是 H * W * C，那么一个3 * 3的普通卷积的参数量就是 3 * 3 * C * C = 9C^2，而一个深度可分离卷积对应的参数量就是 3 * 3 * C = 9C，这个非常好理解，普通卷积和深度可分离卷积都需要C个卷积核，但是普通卷积的卷积核是三维的，是同时作用在原始的C个通道的，而深度可分离卷积的卷积核是二维的，是只用单个通道的。

在不改变图像尺寸的情况下，普通卷积的计算量是 3 * 3 * C * H * W * C = 9HWC^2, 深度可分离卷积的计算量是 3 * 3 * H * W * C = 9 HWC。

2. 为什么说理论计算量Flops小不代表推理速度快？

我觉得是因为理论计算量是计算的次数，并没有把每种数学计算所消耗时间的不同考虑在内，比如求导和求和操作的耗时肯定不同。

3. 为什么说增大参数量反而可以提高训练的效率？

暂未透彻理解，只谈自己的猜测，欢迎大佬指正小弟。
这里提到了将注意力加入到卷积模块、在大规模数据集上使用transformer，我觉得说明了：注意力的计算过程没有卷积耗时。注意力中Q、K、W以及权重的计算都依靠的是线性转化，包含相加求和的原子操作；卷积上本质也是相加求和等原子操作，但是求和的时候需要找到准确的 3 * 3网格区域，个人怀疑底层的这个定位操作会比较耗时。

4 progressive learning 怎么简短快速理解？

在这里插入图片描述
论文中是渐进式地增加图片尺寸来提高训练速度，**其属于渐进式训练的一种类型。**小图片给的正则化强度比较弱，这是因为小图片会使得模型学习到的东西也相对有限一些；而大尺度的图片会给一个较强的正则化强度来避免过拟合。

5 NAS搜索的目的直接从为模型效果服务演变成了优化训练和参数效率，这是通过怎么改变NAS的搜索原理实现的？

只贴出原论文的介绍，希望大佬看到了能解答一下吧。
在这里插入图片描述

6 论文任务scale up模型的深度应该在更侧重于在网络的更晚阶段进行，这一点并没有做出解释，只给出了这个结论，所以该作何理解呢？

7 FixRes方法是在训练阶段使用比测试阶段更小的图片，这样不会降低泛化性能吗？

图灵和柯南道尔的大弟子

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
小白大白读论文-关于EfficientNetV2论文的疑问与总结

假设作用的特征图是 H * W * C，那么一个3 * 3的普通卷积的参数量就是 3 * 3 * C * C = 9C^2，而一个深度可分离卷积对应的参数量就是 3 * 3 * C = 9C，这个非常好理解，普通卷积和深度可分离卷积都需要C个卷积核，但是普通卷积的卷积核是三维的，是同时作用在原始的C个通道的，而深度可分离卷积的卷积核是二维的，是只用单个通道的。卷积上本质也是相加求和等原子操作，但是求和的时候需要找到准确的 3 * 3网格区域，个人怀疑底层的这个定位操作会比较耗时。.............
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。