[论文阅读]NeurIPS 2021论文预讲会总结

18 篇文章 0 订阅

time: 2021.11.27 下午场


王云鹏
华为诺亚方舟实验室

引导报告(四):
关于视觉Transformer的思考

TNT
1.相关模型:vit

2.TNT:视觉transformer骨干模型
引入了视觉句子
外部trm处理句子,内部trm处理token

IPT
1.结构
多头多尾:输入(原图加噪声),输出(原图)
对比学习+分类

2.实验:
去燥效果高于cnn

Adder ViT: 加法替代乘法构建trm模型
降低功耗,提升性能


朱铭健

动态分辨率网络:Dynamic resolution Network
目的:减少计算量
结构:
复杂图片选择高分辨率,简单图片选择低分辨率

实验:
mobileNet


谢恩泽
香港大学
SegFormer: simple and efficient
PVT: pyramid vision trm
结构:SegFormer
去掉了位置编码
有效感受
trm高于其他resnet,更全局

实验:
鲁棒性高:vs deeplabV3
Not All Images are Worth 16*16 words: Dynamic Vision Transformers with Adptive Sequence Length
相关工作:vit

motivation
flops增加近4倍,效果提升6.4%,很不划算

假设:自适应调整tokens数目?
通过判断是否可信(confidence > threshold),动态调整tokens数目
实验:T2T vit, DeiT
复用 attention map

Augmented shortcut for vision transformer

特征多样性
解决shotcut中特征坍塌(特征不够多样性)

方法:
在原始的shotcut(resnet)上并联:线性变换+非线性激活函数
高效部署:分块循环矩阵
基于快速傅立叶变换(FFT)的高效实现

HRFromer: high-resolution transformer for dense prediction

相关工作:
ViT(分类)
DeiT(分类)

分辨率低:丢失了很多细节信息,

DPT

多个stage: 4,8,16,32
PVT:
Swin:

动机:
dense prediction:基于HRNet
同时保持多路分辨率
复杂度高:L平方-
ISA解决

结构:
HRFromer: HR+trm
trm + cnn(跨window)

实验:
数据集:coco pose
参数量低,效果和HRnet类似

语义分割


田值

Twins: Revisting the design of spatial attention in vision transformers

相关工作:

位置编码
位置编码:用3*3卷积替换这个编码(PEG)
基于PVT
固定postion,导致不同位置的同一物体特征不一样

global attention(/local)
计算量比较大
我们的思路:分层(local + global)

实验

flops降低
图片分割:

目标检测:
效果提升,flops降低

消融
global + local ⬆️
positional

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值