CSDN话题挑战赛第1期活动
详情地址:https://marketing.csdn.net/p/bb5081d88a77db8d6ef45bb7b6ef3d7f
参赛话题:论文带读笔记分享
话题描述:分享学习最近、经典的论文,总结自己的学习心得。
创作模板:论文带读笔记
文章目录
前言
对卷积神经网络重参数化结构设计的一些思考:
- 算法领域:推理时可简化的卷积神经网络结构设计 – 重参数化1
- 关键字:卷积神经网络 重参数化
疑问1
: 重参数化的结构设计为什么这么work?疑问2
: 重参数化给以后的工作带来什么启示?
只是概述创新点,详情请细读论文
ACNet (ICCV 2019)
论文2:ACNet: Strengthening the Kernel Skeletons for Powerful CNN via Asymmetric Convolution Blocks
使用三个卷积核进行训练,推理时合并为一个卷积核
可以说是精心设计的一种等价代换(垂直和水平方向思考:其它样式的卷积核效果如何,好实现吗?
)
DDB (CVPR 2021)
论文3:Diverse Branch Block: Building a Convolution as an Inception-like Unit
六种与简单卷积的等价转换
RepVGG (CVPR 2021)
训练时候的使用shortcut,推理时进行合并
CLB (MLSys 2022)
论文5:Collapsible Linear Blocks for Super-Efficient Super Resolution
将串行的两个卷积核合并为一个卷积核6:
DyRep (CVPR 2022)
论文7:DyRep: Bootstrapping Training with Dynamic Re-parameterization
之后的方法是在固定位置设计重参数化,而这篇文章提出了一种自适应的动态重参数化
总结
- 现有的重参数化都是与线性操作有关,模块中的非线性映射无法被重参数化
- 重参数化理论上是完全相等的,但是具体实现肯定会有误差 (存储精度)
- 应用很广泛,特别是模型实际部署时的一大利器 – 同时也能涨点
疑问猜想
1. 重参数化的结构设计为什么这么work?
- 毫无疑问的一点它在训练的时候增加了参数,可以拟合更复杂的映射
- 其次以ACNet为例,垂直和水平的卷积核有目的去提取更细节化的特征(指导网络进行特征提取),并且在图相关水平和垂直翻转时输出的特征不变 很直观的感觉 – 会有更好的泛化效果
一些不使用重参数化的baseline,可能增加一些参数会有更好的提升(通道数量256 -- 提升到276 这样式的)
2. 重参数化给以后的工作带来什么启示?
- 适当的增加参数,可以提高网络性能
- 让固定的参数拟合固定的特征(指导网络学习 或者 可解释性强的网络)也许有更好的泛化效果
终究是在炼丹(对三维物体投影成的图像进行2D格网的学习) 增加适量的旋转不变性卷积可以提高网络泛化效果
是否可以对非线性的映射进行重参数化?是否可以使用更小的网络拟合大模型训练之后的参数?
CSDN话题挑战赛第1期
活动详情地址:https://marketing.csdn.net/p/bb5081d88a77db8d6ef45bb7b6ef3d7f
ACNet: Strengthening the Kernel Skeletons for Powerful CNN via Asymmetric Convolution Blocks ↩︎
Diverse Branch Block: Building a Convolution as an Inception-like Unit ↩︎
Collapsible Linear Blocks for Super-Efficient Super Resolution ↩︎
DyRep: Bootstrapping Training with Dynamic Re-parameterization ↩︎