2021年11月_呆呆的猫

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 01月

原创【Transformer】15、PoolFormer: MetaFormer is Actually What You Need for Vision

文章目录一、背景论文链接：https://arxiv.org/pdf/2111.11418.pdf代码链接：https://github.com/sail-sg/poolformer一、背景Transformer 最近在计算机视觉任务上展示了很好的效果，大家基本上都认为这种成功来源于基于 self-attention 的结构。但又有文章证明，只使用 MLP 也能达到很好的效果，所以作者假设 Transformer 的效果来源于 transformer 的结构，而非将 token 进行融合交互的模

2021-11-29 17:10:40 3769 2

原创【Transformer】14、Are Transformers More Robust Than CNNs?

文章目录一、背景二、动机三、方法四、结论本文收录于 NIPS 2021一、背景CNN 被广泛用于计算机视觉任务中，其成功的主要原因在于 “卷积” 这一操作，“卷积” 能够引入一定的归纳偏置，如平移不变性等。最近，未使用卷积的 vision transformer 结构在计算机视觉领域也取得了很大的成功，ViT 主要使用自注意力机制，来实现特征提取。二、动机有一些学者提出，Transformer 比 CNN 更加鲁棒，但作者认为他们的结论仅仅来源于现有的实验，两者并没有被放到相同的体量下来对比。

2021-11-22 14:34:46 2111

原创【Transformer】13、Augmented Shortcuts for Vision Transformers

文章目录一、背景二、动机三、方法3.1 增强残差连接3.2 使用循环映射进行高效实现四、效果论文链接：https://arxiv.org/abs/2106.15941代码链接：未开源一、背景Transformer 已经在计算机视觉领域的某些任务上取得了超越 CNN 的效果。在 Transformer 的结构中，self-attention 和 MLP 模块前后通常会使用残差连接。残差连接最初是在 CNN 的结构中提出，用来缓解梯度消失问题。二、动机有些文章指出，没有残差连接的结构的网络效果很差

2021-11-17 19:42:05 1025

原创【Transformer】12、Do Vision Transformers See Like Convolutional Neural Networks?

文章目录一、背景二、方法论文链接：https://arxiv.org/pdf/2108.08810.pdf一、背景Transformer 现在在视觉方面取得了超越 CNN 的效果，所以作者就有一个问题：Transformer 是如何处理视觉的相关任务的呢？基于此，作者对 ViT 和 CNN 在分类任务上进行了一系列分析，发现两者有着很大的不同。ViT 在所有层上都有更一致的表达特征，而造成这一现象的原因在于 self-attention，self-attention 能够在浅层就聚合全局特征。

2021-11-10 14:28:57 2646 2

原创【Transformer】11、DPT: Vision Transformer for Dense Prediction

文章目录一、背景和动机二、方法2.1 Transformer encoder2.2 Convolutional decoder2.3 处理不同输入大小三、效果3.1 单目深度估计3.2 语义分割论文链接：https://arxiv.org/pdf/2103.13413.pdf代码链接：https://github.com/intel-isl/DPT一、背景和动机现有的密集预测模型大都是基于卷积神经网络的模型，基本上都把网络分为两部分：encoder：也就是 backbonedecoder：

2021-11-09 14:46:58 4614 1

原创【Transformer】10、HRFormer：High-Resolution Transformer for Dense Prediction

文章目录一、背景二、动机三、方法四、效果论文链接：https://arxiv.org/abs/2110.09408代码链接：https://github.com/HRNet/HRFormer一、背景ViT 的提出让人们看到了 Transformer 在图像分类任务上的潜力，紧随其后还有很多相关的改进，如知识蒸馏、更深的网络结构、引入卷积等方法，但 ViT 及其类似的方法都缺失了局部空间的信息，难以用于密集预测。还有一些方法聚焦在了使用 Transformer 来实现分割、检测等密集预测任务。二、

2021-11-08 11:02:30 1226