用全连接层替代掉卷积 -- RepMLP

最新推荐文章于 2023-05-25 15:26:37 发布

MezereonXP

最新推荐文章于 2023-05-25 15:26:37 发布

阅读量1.5k

点赞数 2

分类专栏：深度学习算法机器学习文章标签：深度学习人工智能计算机视觉

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_34206952/article/details/117386225

版权

深度学习同时被 3 个专栏收录

36 篇文章 4 订阅

订阅专栏

35 篇文章 2 订阅

订阅专栏

25 篇文章 0 订阅

订阅专栏

用全连接层替代掉卷积 – RepMLP

这次给大家介绍一个工作， “RepMLP: Re-parameterizing Convolutions into Fully-connected Layers for Image Recognition”，是最近MLP热潮中的一篇有代表性的文章。

其github链接为https://github.com/DingXiaoH/RepMLP，有精力的朋友可以去跑一跑，看一看代码。

我们先回顾一下，先前的基于卷积网络的工作。之所以卷积网络能够有效，一定程度上是其对空间上的信息进行捕捉，通过多次的卷积提取到了空间上的特征，并且基本上覆盖了整张图片。假如我们将图片“拍平”然后用MLP进行训练，则失去了空间中的特征信息。

这篇文章的贡献在于：

利用了全连接（FC）的全局能力(global capacity) 以及位置感知 (positional perception)，将其应用到了图像识别上
提出了一种简单的、无关平台的 (platform-agnostic)、可差分的算法，来将卷积和BN合并成FC
充分的实验分析，验证了RepMLP的可行性

整体框架

整个RepMLP分为两个阶段：

训练阶段
测试阶段

针对这两个阶段，如下图所示：

framework

看上去有些复杂，我们先单独看看训练阶段的部分。

首先是全局感知（global perceptron）

global

主要分为两条路径：

路径1: 平均池化 + BN + FC1 + ReLU + FC2
路径2: 分块

我们记输入张量的形状为 $(N, C, H, W)$

路径1

对于路径1，首先平均池化将输入转换成 $(N,C,\frac{H}{h},\frac{W}{w})$ , 相当于缩放，然后绿色的部分表示将张量“拍平”

也就是变成 $(N,\frac{CHW}{hw})$ 形状的张量，经过两层FC层之后，维度仍然保持，因为整个FC就相当于左乘一个方阵。

最终对 $(N,\frac{CHW}{hw})$ 形状的输出进行reshape，得到一个形状是 $(\frac{NHW}{hw}, C, 1, 1)$ 的输出

路径2

对于路径2，直接将输入 $(N, C, H, W)$ 转换成 $\frac{NHW}{hw}$ 个 $(h, w)$ 的小块，其形状也就是 $(\frac{NHW}{hw},C,h,w)$

最后将路径1和路径2的结果做加法，由于维度对不上，不过在PyTorch中，会进行自动的copy操作，也就是所有的 $(h, w)$ 大小的块的每一个像素，都会加上一个值。

这一个部分的输出形状为 $(\frac{NHW}{hw},C,h,w)$

然后进入局部感知和分块感知的部分，如下图所示：

local

对于分块感知（partition perceptron）

首先，将4维的张量拍成2维，即 $(\frac{NHW}{hw},C,h,w)$ 变成 $(\frac{NHW}{hw},Chw)$

然后FC3是一个参照 分组卷积（groupwise conv） 的操作，其中 $g$ 是组的数目

原本FC3应该是 $(O h w, C h w)$ 的一个矩阵，但是为了降低参数量，使用了分组的FC（groupwise FC）

分组卷积本质上就是对通道进行分组，我举个例子：

假设输入是一个 $(C, H, W)$ 的张量，如果我们希望输出是 $(N, H^{'}, W^{'})$

通常我们的卷积核形状为 $(N, C, K, K)$ ，其中 $K$ 是卷积核的大小

我们对通道 $C$ 进行分组，每 $g$ 个通道为一组，那么就有 $\frac{C}{g}$ 个组

对于单独每一个组，进行卷积操作，我们的卷积核形状就会缩小成 $(N,\frac{C}{g},K,K)$

在这里，分组FC也就是对通道数 $C h w$ 进行分组然后每一个组过FC，最终得到 $(\frac{NHW}{hw}, O,h,w)$ 的张量

再经过BN层，张量形状不变。

而对于局部感知（local perceptron）

local perceptron

类似FPN的思想，进行了不同尺度的分组卷积，得到了4个形状为 $(\frac{NHW}{hw}, O,h,w)$ 的张量

把局部感知的结果和分块感知的结果相加，就得到了 $(N, O, H, W)$ 的输出

到这里你可能会问，这不是还存在着卷积吗？

这只是训练阶段，在推理阶段，便会把卷积都扔掉，如下图所示：

inference

至此，我们用MLP替代掉了一个卷积的操作

实验分析

首先是一系列消融实验（Ablation Study），在CIFAR-10数据集上进行测试

cifar-10-ablation

A条件是在推断的时候保留BN层和conv层，结果没有变化

D，E条件分别是用一个9x9的卷积层替代掉FC3和整个RepMLP

Wide ConvNet是将本来的网络结构的通道数翻倍

结果说明局部感知和全局感知的重要性，同时推断的时候去除卷积部分没有影响，实现了MLP的替换

然后作者替换掉了ResNet50的一些block，进行了测试

c4-only

只替换掉倒数第二个残差块，参数量多了一些，但是正确率有小幅度的增加

倘若我们完全替换掉更多的卷积部分

replace

参数量会增加，正确率也会有小幅度的增加

关注

2
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
用全连接层替代掉卷积 -- RepMLP

用全连接层替代掉卷积 – RepMLP这次给大家介绍一个工作， “RepMLP: Re-parameterizing Convolutions into Fully-connected Layers for Image Recognition”，是最近MLP热潮中的一篇有代表性的文章。其github链接为https://github.com/DingXiaoH/RepMLP，有精力的朋友可以去跑一跑，看一看代码。我们先回顾一下，先前的基于卷积网络的工作。之所以卷积网络能够有效，一定程度上是其对空间上的
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。