Transformer
文章平均质量分 93
Frankenstein@
月亮你要,六便士你还嫌少。
展开
-
目标检测论文阅读:DETR算法笔记
我们提出了一种新的方法,将目标检测视为一个直接的集合预测问题。我们的方法简化了检测pipeline,有效地消除了许多手工设计的组件,如非极大值抑制过程或锚框生成,这些组件显式地编码了我们关于任务的先验知识。新框架,称为DEtection TRansformer或DETR,其主要成分是一个基于集合的全局损失,它通过二分图匹配强制进行唯一预测,以及一个transformer编码器-解码器结构。给定一个固定的学习到的目标query小型集合,DETR推理目标和全局图像上下文的关系,并行地直接输出最终的预测集合。原创 2023-02-19 20:02:36 · 754 阅读 · 0 评论 -
Transformer论文阅读:Swin Transformer算法笔记
我们提出了一个层级式Transformer,其表征是通过移动窗口来计算的。移动窗口方案通过将自注意力的计算限制在非重叠的局部的窗口,从而带来更高的效率,同时还允许跨窗口的联系。这种层级式的结构具有在不同尺度下建模的灵活性,并且具有与图像尺寸相关的线性的计算复杂度。Swin Transformer的这些特性使其可以兼容广泛的视觉任务,包括图像分类和稠密预测任务,如目标检测和语义分割。其性能在各个视觉任务基准上都超过了之前的SOTA,展示了基于Transformer的模型作为视觉主干的潜力。原创 2023-02-18 19:38:22 · 1179 阅读 · 3 评论 -
Transformer论文阅读:ViT算法笔记
虽然Transformer结构已经成为自然语言处理任务的事实标准,但其在计算机视觉中的应用仍然有限。在视觉中,注意力要么与卷积网络结合使用,要么用于替换卷积网络的某些组件同时保持它们的整体结构。我们表明,这种对CNN的依赖不是必要的,直接用于图像块序列的纯Transformer可以在图像分类任务中表现得很好。当在大量数据上进行预训练,再迁移到多个中小型图像识别基准时,视觉变换器(Vision Transformer,ViT)与SOTA的卷积网络相比取得了优异的结果,并且需要的训练计算资源更少。原创 2023-02-17 00:08:40 · 871 阅读 · 1 评论