MLP-Mixer: AN all MLP Architecture for Vision

BlueagleAI

已于 2024-02-19 17:20:44 修改

阅读量576

点赞数 9

文章标签：论文阅读

于 2024-02-19 05:51:10 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/blueag1e/article/details/136161398

版权

发表于NeurIPS 2021, 由Google Research, Brain Team发表。

在这里插入图片描述

Mixer Architecture

Introduction

当前的深度视觉结构包含融合特征(mix features)的层:(i)在一个给定的空间位置融合。(ii)在不同的空间位置，或者一次融合所有。
在CNN中，(ii) 是由N x N(N > 1 )卷积和池化完成的。更深的神经元有更深的感受野。同时 1 x 1的卷积完成了(i)。
在 Vision Transformer和其他基于attention-based architectures，自监督层同时做到了(i)和(ii), 而MLP-blocks 做到了(i)。
因此Mixer architecture的内在思想是去清晰区分per-location(channel-mixing) 操作(i) 以及cross-location(token-mixing)operations(ii)。这些操作都由MLPs完成。

Steps

Mixer的输入是S个无重叠的图像块,每一块投影成维度C的隐层，也就是一个二维真值输入表， $\in \mathbb{R}^{S \times C}$ 。 S维度就代表空间，C代表同一空间位置的不同特征。
Mixer 包括同一尺寸的多层，每层包含两个MLP块。第一个是token-mixing MLP：作用于X的列（通过将X转置 $X^T$ ）。第二个是channel-mixing MLP：作用于行。
每一个模块包含两个全连接层和一个非线性层。

Code

关注

9
点赞
踩
4

收藏

觉得还不错? 一键收藏
打赏
0
评论
MLP-Mixer: AN all MLP Architecture for Vision

S维度就代表空间，C代表同一空间位置。
复制链接

扫一扫

BlueagleAI CSDN认证博客专家 CSDN认证企业博客

码龄6年

76: 原创

9万+: 周排名

5万+: 总排名

7万+: 访问

: 等级

1283: 积分

145: 粉丝

145: 获赞

27: 评论

252: 收藏

私信

关注

热门文章

分类专栏

最新评论

论文阅读：AdaBins: Depth Estimation using Adaptive Bins
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
论文阅读: Visual Attention Network
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
论文阅读：How Do Neural Networks See Depth in Single Images?
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
论文阅读: Semantics-guided Triplet Loss
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
论文阅读：AugGAN: Cross Domain Adaptation with GAN-based Data Augmentation
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

BlueagleAI 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。