ch隔壁老张-CSDN博客

原创披着transformer皮的CNN：SwinTransformer

提出一个Swin Transformer，可以用作骨干网络，直接把transformer用在CV领域，有挑战：1.多尺度物体2.序列长度太长。基于挑战，提出了hierarchical transformer，使用一种一种窗口的方法，现在自注意力在窗口内算，seq很短，而且通过移动窗口，上下层之间会产生交互（cross-window connection），这个层级窗口可以提供各个尺度的信息，而且他的复杂度是随着分辨率提高线性增长（不是平方）

2023-04-03 11:12:54 157

原创基于transformer物体检测：DETR

把物体检测的任务直接看成集合预测的任务，把目标检测做成端到端框架，不再需要先验知识（去掉anchor、NMS之类）具体的：提出一种目标函数，使用二分图匹配，让模型输出独一无二的预测；使用编解码结构；解码器加一个learned object queries。

2023-04-03 11:12:11 237

原创第三大模型：transformer笔记

在编码器和解码器之间使用注意力机制我们提出了一个简单的网络架构主要用在机器翻译的任务。

2023-04-03 11:10:43 78

原创视觉中的transformer：ViT

transformer已经是NLP的标准。但是在cv领域用的很少，视觉里一般是和cnn一起用或者把某些conv替换成transformer（整体还是CNN）本篇文章证明纯的transformer直接在图片分类上也做得很好：在大量数据集上进行预训练的前提上，迁移到小数据集（作者说ImageNet是小数据集-_-）上也很好。（1）z0是输入=xp是patch, x·E是全连接，xclss是拼接的cls，然后加pos编码（2）zt本层输出=MSA多头注意力（LN（zt-1是本层输入））+zt-1是残差。

2023-04-03 11:09:12 218