MLP-Mixer简介和一些想法

最近Google Research的Brain Team又发表了重磅文章,纯MLP架构------MLP-Mixer,这个团队即原来的ViT团队,实力强横。作者通过与ViTs模型(包含ViT、HaloNet、BiT)和CNN模型(NFNet、MPL、ALIGN等)做了对比,效果还是不错的。

总体设计思路

    整体架构如下图所示:

在这里插入图片描述
    其整体思路为:先将输入图片拆分成多个patches(每个patche之间不重叠),通过Per-patch Fully-connected层的操作将每个patch转换成feature embedding,然后送入N个Mixer Layer。最后,Mixer 将标准分类头与全局平均池化层配合使用,随后使用Fully-connected进行分类。

    Mixer 架构采用两种不同类型的 MLP 层:token-mixing MLP 和 channel-mixing MLP。token-mixing MLP 允许不同空间位置(token)之间进行通信,具有跨patches应用的MLP(即“混合”空间信息);channel-mixing MLP 允许不同通道之间进行通信,具有独立应用于图像patches的MLP(即“混合”每个位置特征)。token-mixing MLP block作用在每个patche的列上,即先对patches部分进行转置,并且所有列参数共享MLP1,得到的输出再重新转置一下。channel-mixing MLP block作用在每个patche的行上,所有行参数共享MLP2。这两种类型的层交替执行以促进两个维度间的信息交互。具体如下图所示:

    上图中,绿色框部分是token-mixing MLP,蓝色框部分是channel-mixing MLP。除了 MLP 层,Mixer 还使用其他标准架构组件:跳跃连接(Skip-connection)和层归一化(Layer Norm)。

实验结果

    本文对实验结果不进行太多的分析,可以查看一下原文或是参考一些网站;
    如:https://baijiahao.baidu.com/s?id=1698992972535694806&wfr=spider&for=pc

自己的意见

    本文的研究验证了MLP结构对分类任务的有效性,但是我对此文章依然有一些看法:

CV领域包含了分类、分割、识别等多个方向,本文的研究为分类做出一定贡献,但是此算法是否可以为分割、识别等方向提供太大的可能呢?我持怀疑态度,因为其进行了patches操作,有效的特征很可能出现大量丢失的情况。当然,我们输入的patches有一定的顺序,根据此顺序理论上可以对特征进行部分拼接或是还原,但是这增加了网络或是后续处理的复杂性;或许有人说可以resize呀,这个方法当然是可以的,但是具体效果那就不知道了,有待验证;
众所周知,研究者是根据图像的局部相关性和空间平稳性提出了conv,其实就是把图像分成多个patch,对每个patch上全连接,而且不同patch之间参数共享,这本质上是跟MLP有一定的相似性,但是conv的空间平稳性应该会比MLP好一些,因为MLP进行patchs操作后patchs之间是不重叠的,这也会造成一定的特征丢失;
我认为这篇文章中的跳跃连接(Skip-connection)和层归一化(Layer Norm)对整个网络的贡献并不比MLP 层小,这也说明了何凯明大神的厉害之处。
总结

    本文的研究我认为还是挺有创造性的,至少他提供了CV领域的一种可行方案。但是总体感觉网络结构的发展是被算力牵着走。MLP(Multi-Layer Perceptron,多层感知机)最先出来,由于当时算力跟不上才提出了图像的CNN,想想本文中的Fully-connected。最近又开始从CNN走回头路,先是VIT再是MLP,只要算力和数据够,一切就都有可能。

了解更多关于《计算机视觉与图形学》相关知识,请关注公众号:

在这里插入图片描述
下载我们视频中代码和相关讲义,请在公众号回复:计算机视觉课程资料

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值