1、卷积层使用相同的输入输出通道数:输入输出具有相同通道数时,内存消耗最小;
2、注意平衡大的卷积分组数带来的改善和问题:虽然分组卷积能提高模型准确度、显著降低参数数量以及FLOPs,但使用过多的分组卷积会增大内存访问成本(MAC),反而会降低模型速度;
3、减少分支以及所包含的基本单元:同样的FLOPs,模型的分支数量越少,运行速度越快(同样的单元数与FLOPs,串联的运行速度快于并联);
4、减少Element-wise操作:Element-wise操作的运行时间不能忽略(如Add、激活函数、短连接、depthwise可分离卷积),(尤其在GPU上)是典型的低FLOPs、高MAC的操作。