[论文阅读]NeurIPS 2021论文预讲会总结

艾鹤

于 2022-07-28 18:26:11 发布

阅读量275

点赞数

分类专栏： nlp ML 文章标签：深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u010212101/article/details/126041166

版权

nlp 同时被 2 个专栏收录

42 篇文章 3 订阅

订阅专栏

18 篇文章 0 订阅

订阅专栏

time: 2021.11.27 下午场

王云鹏
华为诺亚方舟实验室

引导报告（四）：
关于视觉Transformer的思考

TNT
1.相关模型：vit

2.TNT：视觉transformer骨干模型
引入了视觉句子
外部trm处理句子，内部trm处理token

IPT
1.结构
多头多尾：输入(原图加噪声)，输出(原图)
对比学习+分类

2.实验：
去燥效果高于cnn

Adder ViT: 加法替代乘法构建trm模型
降低功耗，提升性能

朱铭健

动态分辨率网络：Dynamic resolution Network
目的：减少计算量
结构：
复杂图片选择高分辨率，简单图片选择低分辨率

实验：
mobileNet

谢恩泽
香港大学
SegFormer: simple and efficient
PVT: pyramid vision trm
结构：SegFormer
去掉了位置编码
有效感受
trm高于其他resnet，更全局

实验：
鲁棒性高：vs deeplabV3
Not All Images are Worth 16*16 words: Dynamic Vision Transformers with Adptive Sequence Length
相关工作：vit

motivation
flops增加近4倍，效果提升6.4%，很不划算

假设：自适应调整tokens数目？
通过判断是否可信(confidence > threshold)，动态调整tokens数目
实验：T2T vit, DeiT
复用 attention map

Augmented shortcut for vision transformer

特征多样性
解决shotcut中特征坍塌（特征不够多样性）

方法：
在原始的shotcut(resnet)上并联：线性变换+非线性激活函数
高效部署：分块循环矩阵
基于快速傅立叶变换(FFT)的高效实现

HRFromer: high-resolution transformer for dense prediction

相关工作：
ViT（分类）
DeiT（分类）

分辨率低：丢失了很多细节信息，

DPT

多个stage: 4,8,16,32
PVT:
Swin:

动机：
dense prediction：基于HRNet
同时保持多路分辨率
复杂度高：L平方-
ISA解决

结构：
HRFromer: HR+trm
trm + cnn(跨window)

实验：
数据集：coco pose
参数量低，效果和HRnet类似

语义分割

田值

Twins: Revisting the design of spatial attention in vision transformers

相关工作：

位置编码
位置编码：用3*3卷积替换这个编码(PEG)
基于PVT
固定postion，导致不同位置的同一物体特征不一样

global attention（/local）
计算量比较大
我们的思路：分层（local + global）

实验

flops降低
图片分割：

目标检测：
效果提升，flops降低

消融
global + local ⬆️
positional

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
[论文阅读]NeurIPS 2021论文预讲会总结

NeurIPS 2021论文预讲会总结
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。