wave mlp论文解读

华为诺亚方舟实验室、北京大学、悉尼大学的研究者提出了一种受量子力学启发的视觉 MLP 新架构
论文地址:https://arxiv.org/abs/2111.12294
PyTorch 代码:https://github.com/huawei-noah/CV-Backbones/tree/master/wavemlp_pytorch

性能展示image.png

创新点

  • 提出将每个特征表示为具有振幅和相位两部分的波函数。

振幅是原始特征,相位项是根据输入图像的语义内容而变化的复数值。引
入相位项可以动态调整 MLP 中token和固定权重之间的关系。

原理

视觉MLP简介

现有思路

MLP模型主要包含两个独立的模块,通道混合MLP和token混合MLP。通过交替堆叠这两种类型的MLP来提取特征,但性能仍然不如CNN和transformer架构的SOTA模型。

通道混合MLP:捕获token的特征。
token混合MLP: 捕获空间信息。将图像分成多个块,每个块被称为token, token-mixing MLP 用来混合不同token之间的要素来。

不足

作者认为瓶颈在于全连接层的固定权重用于提取不同图像的特征,忽略了语义信息的差异。

波的叠加

相同波形产生增益,相反波形产生抑制。

image.png

使用两个分量提取特征

用于获取幅值和相位

image.png

用于聚合不同token

image.png

波的表示

中心思想:将波函数用神经网络表示。
image.png

image.png是每个token的实数特征,image.png是一个周期函数,image.png表示相位,即波周期内token的当前位置

为什么image.png是一个周期函数?

欧拉公式

image.png

指数函数在实数域:

image.png

指数函数在复数域

image.png
所以image.png是一个周期函数

幅值的表示

通过一层通道fc来学习幅值

image.png

相位的表示

image.png为相位估计模块,仍然是一层channel-fc

image.png

波的欧拉公式展开

image.png

不同的波进行聚合

token-FC聚合

image.png

映射到实数域。遵循量子测量方法,通过求和image.png权重的实部和虚部,将复数值表示的量子态映射到实数值域。image.png都为可以学习的权重,相位image.png根据输入数据的语义不同动态调整。

image.png

网络

PATM模块

相位感知token聚合模块
image.png

PATM内部网络图

Token Mixing

image.png
提问:

  1. 哪个是幅值的表示?
  2. 哪个是相位的表示?
  3. 哪个是token聚合的表示?
  4. image.png中的PATM是内部网络图的哪部分?channel FC是哪部分?

Channel MLP

image.png

总体架构

每个image.png可以称为一个block,token Mixing和channel-MLP构成一个block。
整个模型通过交替堆叠token Mixing和channel-MLP构建,

image.png

实验

ImageNet上的实验

image.png

coco上的实验

image.png
An Image Patch is a Wave Quantum Inspired Vision MLP.pdf

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值