小白大白读论文-关于EfficientNetV2论文的 疑问 与 总结

主要参考了这篇csdn博客,但是存在一些问题:EfficientNetV2网络详解

Questions

1. Depthwise convolutions结构为什么相比普通卷积拥有更少的参数以及更小的FLOPs?

假设作用的特征图是 H * W * C,那么一个3 * 3的普通卷积的参数量就是 3 * 3 * C * C = 9C^2,而一个深度可分离卷积对应的参数量就是 3 * 3 * C = 9C,这个非常好理解,普通卷积和深度可分离卷积都需要C个卷积核,但是普通卷积的卷积核是三维的,是同时作用在原始的C个通道的,而深度可分离卷积的卷积核是二维的,是只用单个通道的。

在不改变图像尺寸的情况下,普通卷积的计算量是 3 * 3 * C * H * W * C = 9HWC^2, 深度可分离卷积的计算量是 3 * 3 * H * W * C = 9 HWC。

2. 为什么说理论计算量Flops小不代表推理速度快?

我觉得是因为理论计算量是计算的次数,并没有把每种数学计算所消耗时间的不同考虑在内,比如求导和求和操作的耗时肯定不同。

3. 为什么说增大参数量反而可以提高训练的效率?在这里插入图片描述

暂未透彻理解,只谈自己的猜测,欢迎大佬指正小弟。
这里提到了将注意力加入到卷积模块、在大规模数据集上使用transformer,我觉得说明了:注意力的计算过程没有卷积耗时。注意力中Q、K、W以及权重的计算都依靠的是线性转化,包含相加求和的原子操作;卷积上本质也是相加求和等原子操作,但是求和的时候需要找到准确的 3 * 3网格区域,个人怀疑底层的这个定位操作会比较耗时。

4 progressive learning 怎么简短快速理解?在这里插入图片描述

在这里插入图片描述
论文中是渐进式地增加图片尺寸来提高训练速度,**其属于渐进式训练的一种类型。**小图片给的正则化强度比较弱,这是因为小图片会使得模型学习到的东西也相对有限一些;而大尺度的图片会给一个较强的正则化强度来避免过拟合。

5 NAS搜索的目的直接从为模型效果服务演变成了优化训练和参数效率,这是通过怎么改变NAS的搜索原理实现的?

只贴出原论文的介绍,希望大佬看到了能解答一下吧。
在这里插入图片描述在这里插入图片描述

6 论文任务scale up模型的深度应该在更侧重于在网络的更晚阶段进行,这一点并没有做出解释,只给出了这个结论,所以该作何理解呢?

7 FixRes方法是在训练阶段使用比测试阶段更小的图片,这样不会降低泛化性能吗?

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值