一、摘要
卷积一直是现代神经网络的核心成分,引发了深度学习在视觉领域的激增。在这项工作中,我们重新考虑了视觉任务的标准卷积的固有原则,特别是特定的空间和通道。相反,我们通过反转上述卷积设计原则,为深神经网络提出了一种新的基本操作,以卷积为由。我们还关注了最近的自我注意力机制,并将其看作为内卷积过度复杂的实例化。
- 我们重新思考卷积的固有性质,与空间和通道范围相关。这就促使我们主张其他具有视觉识别识别能力和表达能力的潜在算子作为替代,突破现有的卷积归纳偏差。
- 我们将新兴的将自我注意力纳入视觉表征的学习过程。在这种情况下,对组合像素对进行关系建模的要求受到了挑战。此外,我们统一了自我注意和卷积的观点,通过我们的内卷积。
- 在许多领域都有很好的功能,且由于其他卷积操作。内卷积原论文代码
二、卷积介绍
三、内卷积设计
四、代码实现
import torch.nn as nn
from mmcv.cnn import ConvModule
class involution(nn.Module):
def __init__(self,
channels,
kernel_size,
stride):
super(involution, self).__init__()
self.kernel_size = kernel_size
self.stride = stride
self.channels = channels
reduction_ratio = 4
self.group_channels = 16
self.groups = self.channels // self.group_channels
self.conv1 = ConvModule(
in_channels=channels,
out_channels=channels // reduction_ratio,
kernel_size=1,
conv_cfg=None,
norm_cfg=dict(type='BN'),
act_cfg=dict(type='ReLU'))
self.conv2 = ConvModule(
in_channels=channels // reduction_ratio,
out_channels=kernel_size**2 * self.groups,
kernel_size=1,
stride=1,
conv_cfg=None,
norm_cfg=None,
act_cfg=None)
if stride > 1:
self.avgpool = nn.AvgPool2d(stride, stride)
self.unfold = nn.Unfold(kernel_size, 1, (kernel_size-1)//2, stride)
def forward(self, x):
weight = self.conv2(self.conv1(x if self.stride == 1 else self.avgpool(x)))
b, c, h, w = weight.shape
weight = weight.view(b, self.groups, self.kernel_size**2, h, w).unsqueeze(2)
out = self.unfold(x).view(b, self.groups, self.group_channels, self.kernel_size**2, h, w)
out = (weight * out).sum(dim=3).view(b, self.channels, h, w)
return out