深度学习新趋势：利用MLP取代卷积层—

本文链接：https://blog.csdn.net/qq_18943707/article/details/147567212

深度学习新趋势：利用MLP取代卷积层——S2-MLPv2模型解析

近年来，深度学习领域不断涌现出新的技术革新，而其中最引人注目的趋势之一就是用多层感知机（MLP）替代传统的卷积层。这种转变不仅带来了计算效率的提升，还在许多任务上取得了超越预期的效果。

从CNN到Transformer：一场悄然发生的革命

传统深度学习模型以卷积神经网络（CNNs）为主导。CNN通过使用卷积操作来处理图像数据，在计算机视觉领域取得了巨大成功。然而，随着深度学习的发展，研究人员逐渐意识到MLP具有替代卷积运算的潜力。

这种转变源于两个关键观察：1) 计算效率的需求；2) 模型表达能力的提升空间。通过将卷积层替换为MLP，模型可以在不显著降低性能的同时减少计算成本。

S2-MLPv2：更高效的实现

S2-MLPv2是一种改进版本的MLP架构，旨在更好地模拟CNN的感受野。该模型通过引入空间位移变换（spatial shift）操作来弥补纯MLP在位置编码能力上的不足。

具体来说，S2-MLPv2通过四个方向的平移操作，让每一层的信息能够流向不同的邻居区域。这种机制保留了CNN的主要优势，同时继承了MLP的优势——可并行化的计算特性。

从代码看实现：关键组件解析

让我们通过实际代码来分析这个模型的核心组件：

1. 空间位移操作

定义了两个空间位移函数spatial_shift1和spatial_shift2。这两个函数分别负责在不同的方向上移动特征图中的信息，从而实现信息的交互。

def spatial_shift1(x):
    # shift left up 1
    shifted = torch.zeros_like(x)
    shifted[:, :, 1:, :7] = x[:, :, :-1, :7]
    shifted[:, :, 1:, 7:] = x[:, :, :-1, 7:]
    shifted[:, :, 0, :] = x[:, :, 0, :]
    return shifted

def spatial_shift2(x):
    # shift up and down
    shifted = torch.zeros_like(x)
    mid = x.size(2) // 2
    shifted[:, :, :mid, :] = x[:, :, (mid+1):, :]
    shifted[:, :, (mid+1):, :] = x[:, :, :mid, :]
    return shifted

2. 分支注意力机制

模型中采用了分支的注意力机制，能够自适应地调节各通道之间的信息权重。

class SplitAttention(nn.Module):
    def __init__(self, channels=512 ):
        super().__init__()
        self.mlp = nn.Sequential(
            nn.Linear(channels*3, channels),
            nn.ReLU(),
            nn.Linear(channels, channels)
        )
    def forward(self, x_all):
        # 计算注意力权重
        # ...
        return attention * x_all