- 博客(6)
- 资源 (6)
- 收藏
- 关注
原创 【Transformer】15、PoolFormer: MetaFormer is Actually What You Need for Vision
文章目录一、背景论文链接:https://arxiv.org/pdf/2111.11418.pdf代码链接:https://github.com/sail-sg/poolformer一、背景Transformer 最近在计算机视觉任务上展示了很好的效果,大家基本上都认为这种成功来源于基于 self-attention 的结构。但又有文章证明,只使用 MLP 也能达到很好的效果,所以作者假设 Transformer 的效果来源于 transformer 的结构,而非将 token 进行融合交互的模
2021-11-29 17:10:40 3769 2
原创 【Transformer】14、Are Transformers More Robust Than CNNs?
文章目录一、背景二、动机三、方法四、结论本文收录于 NIPS 2021一、背景CNN 被广泛用于计算机视觉任务中,其成功的主要原因在于 “卷积” 这一操作,“卷积” 能够引入一定的归纳偏置,如平移不变性等。最近,未使用卷积的 vision transformer 结构在计算机视觉领域也取得了很大的成功,ViT 主要使用自注意力机制,来实现特征提取。二、动机有一些学者提出,Transformer 比 CNN 更加鲁棒,但作者认为他们的结论仅仅来源于现有的实验,两者并没有被放到相同的体量下来对比。
2021-11-22 14:34:46 2111
原创 【Transformer】13、Augmented Shortcuts for Vision Transformers
文章目录一、背景二、动机三、方法3.1 增强残差连接3.2 使用循环映射进行高效实现四、效果论文链接:https://arxiv.org/abs/2106.15941代码链接:未开源一、背景Transformer 已经在计算机视觉领域的某些任务上取得了超越 CNN 的效果。在 Transformer 的结构中,self-attention 和 MLP 模块前后通常会使用残差连接。残差连接最初是在 CNN 的结构中提出,用来缓解梯度消失问题。二、动机有些文章指出,没有残差连接的结构的网络效果很差
2021-11-17 19:42:05 1025
原创 【Transformer】12、Do Vision Transformers See Like Convolutional Neural Networks?
文章目录一、背景二、方法论文链接:https://arxiv.org/pdf/2108.08810.pdf一、背景Transformer 现在在视觉方面取得了超越 CNN 的效果,所以作者就有一个问题:Transformer 是如何处理视觉的相关任务的呢?基于此,作者对 ViT 和 CNN 在分类任务上进行了一系列分析,发现两者有着很大的不同。ViT 在所有层上都有更一致的表达特征,而造成这一现象的原因在于 self-attention,self-attention 能够在浅层就聚合全局特征。
2021-11-10 14:28:57 2646 2
原创 【Transformer】11、DPT: Vision Transformer for Dense Prediction
文章目录一、背景和动机二、方法2.1 Transformer encoder2.2 Convolutional decoder2.3 处理不同输入大小三、效果3.1 单目深度估计3.2 语义分割论文链接:https://arxiv.org/pdf/2103.13413.pdf代码链接:https://github.com/intel-isl/DPT一、背景和动机现有的密集预测模型大都是基于卷积神经网络的模型,基本上都把网络分为两部分:encoder:也就是 backbonedecoder:
2021-11-09 14:46:58 4614 1
原创 【Transformer】10、HRFormer:High-Resolution Transformer for Dense Prediction
文章目录一、背景二、动机三、方法四、效果论文链接:https://arxiv.org/abs/2110.09408代码链接:https://github.com/HRNet/HRFormer一、背景ViT 的提出让人们看到了 Transformer 在 图像分类任务上的潜力,紧随其后还有很多相关的改进,如知识蒸馏、更深的网络结构、引入卷积等方法,但 ViT 及其类似的方法都缺失了局部空间的信息,难以用于密集预测。还有一些方法聚焦在了使用 Transformer 来实现分割、检测等密集预测任务。二、
2021-11-08 11:02:30 1226
codelldb-x86-64-linux.vsix 下载,用于vscode 的LLDB 插件,用来debug调试 vscode
2022-11-14
assets的sample_sounds静态资源中的若干wav文件
2022-09-11
vscode codelldb mac版本--codelldb-x86_64-darwin.vsix--下载后VISX离线安装
2022-08-24
Matlab的cifar-10.mat文件,可以直接用
2018-08-09
Matlab的AR.mat文件,可以直接用
2018-08-09
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人