机器学习笔记(18)MLP-Mixer的介绍和一点想法

论文

论文题目:MLP-Mixer: An all-MLP Architecture for Vision
论文地址:https://arxiv.org/pdf/2105.01601.pdf

最近看了下这篇论文,很受启发,这里写一写,另外也感谢这位博主的分享:https://blog.csdn.net/guzhao9901/article/details/116494592,在这里也学到了很多

论文噱头

一个纯MLP架构

详解

看到论文的第一反应就是:这不就是Transformer的框架图吗

的确,Patch和Per-patch Fully-connected基本就是Transformer中的Patch和feature embedding操作。重点在于Mixer Layer,这里采用两种不同类型的 MLP 层:token-mixing MLP 和 channel-mixing MLP。token-mixing MLP 允许不同空间位置(token)之间进行通信,具有跨patches应用的MLP(即“混合”空间信息);channel-mixing MLP 允许不同通道之间进行通信,具有独立应用于图像patches的MLP(即“混合”每个位置特征)。token-mixing MLP block作用在每个patche的列上,即先对patches部分进行转置,并且所有列参数共享MLP1,得到的输出再重新转置一下。channel-mixing MLP block作用在每个patche的行上,所有行参数共享MLP2。这两种类型的层交替执行以促进两个维度间的信息交互。

上图中,绿色框部分是token-mixing MLP,蓝色框部分是channel-mixing MLP。除了 MLP 层,Mixer 还使用其他标准架构组件:跳跃连接(Skip-connection)和层归一化(Layer Norm)。心声:何凯明大神恐怖如斯。

吐槽

记得当时有一位推主吐槽

 其实除了这点,在读论文的过程中我也发现了

patch的转置+MLP  ,这个操作也非常“形似”于卷积,可能这也是它取得高准确率的原因之一。

总结

最后应用那位博主的原话:“本文的研究我认为还是挺有创造性的,至少他提供了CV领域的一种可行方案。但是总体感觉网络结构的发展是被算力牵着走。MLP(Multi-Layer Perceptron,多层感知机)最先出来,由于当时算力跟不上才提出了图像的CNN,想想本文中的Fully-connected。最近又开始从CNN走回头路,先是VIT再是MLP,只要算力和数据够,一切就都有可能。” MLP本质上就是可以拟合任何一种函数的存在,受算力影响才使用的CNN,所以算力提升的当下环境,重回MLP也不是一件什么特别值得惊讶的事。

但我会继续关注这个方向的,部分人对于MLP-Mixer的评价甚高,并称这是MLP-CNN-Attention-MLP循环的开始。之后看到好点子我会继续写在这里。

参考链接:https://baijiahao.baidu.com/s?id=1698992972535694806&wfr=spider&for=pc

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小白 AI 日记

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值