Transformer-based
文章平均质量分 71
gesshoo
坚持就是胜利
展开
-
DN-DETR 2022
【DN-DETR: Accelerate DETR Training by Introducing Query DeNoising】DETR收敛速度慢的原因是二部图匹配算法的不稳定性,导致早期训练阶段的优化目标不一致。提出一种新颖的去噪训练方法加快收敛,并使效果更好。在训练过程中引入查询去噪任务来帮助稳定二部图匹配。我们将带噪声的地面真值边界框作为带噪声的查询与可学习的锚点查询一起馈送到变压器解码器中。对于有噪声的查询,我们执行去噪任务来重建它们对应的地面真值框;对于其他可学习的anchor que原创 2022-03-28 12:24:48 · 1053 阅读 · 0 评论 -
DINO:2022.3_SOTA_COCO_DETR
通过使用一个对比的方式为了去噪训练,一个混合的query选择方法为了anchor初始化,和一个向前看两次的方案为了box预测。DINO在模型大小和数据大小上表现出良好的可扩展性,用SwinL backbone在Object365大数据集预训练,达到了COCO val2017 63.2AP 和 test-dev 63.3AP。SOTA in 2022.3IntroductionDETR的主要问题是收敛慢和query的意义是不明确的。目前在最好的检测器当前还是经典的检测器,Dyhead、HTC等原创 2022-03-26 19:31:25 · 6186 阅读 · 0 评论 -
【Linear Attention Mechanism: An Efficient Attention for Semantic Segmentation】CVPR2020
提出了一种线性注意力机制,与点乘注意力机制近似,但使用更少的内存和计算损耗。原创 2022-03-20 09:53:03 · 1159 阅读 · 0 评论 -
【Luna: Linear Unified Nested Attention】2021
线性统一嵌套注意力。用两个嵌套的线性注意力函数近似softmax attention,只产生线性(而不是二次)的时间和空间复杂性。Luna引入了一个固定长度的额外的序列作为输入,对应着一个额外的输出,寻允许Luna线性的进行注意操作,同时还存储足够的上下文信息。...原创 2022-03-19 15:14:43 · 667 阅读 · 0 评论 -
【Efficient Attention: Attention with Linear Complexities】WCAV2021
由于矩阵乘法是关联的,将顺序从切换到对效果没有什么影响,但可以将复杂度从O(n^2)到O(dk*dv),使其复杂度成为线性。在实际情况下,dk*dv明显小于n^2。这种方法被文章称为”efficient attention“。新机制在数学上等价于尺度归一化的点乘注意力,近似于softmax归一化的点乘注意力。实验证明,当近似相等时并不影响准确率。另外,实验表明它的效率允许将更多的注意力模块集成到网络中,并集成到网络的高分辨率部分中,这将导致更高的准确率。此外,实验还表明,有效的注意力可以将注意力..原创 2022-03-18 21:47:16 · 4389 阅读 · 4 评论 -
【Linformer:Self-Attention with Linear Complexity】
论文中,展示了自注意力机制可以被一个低秩矩阵近似,利用这一发现提出了新的自注意力机制,将空间与时间计算复杂度降低到O(n)。作者发现自注意力是低秩的,通过线性投影将原本的点乘注意力分解为多个较小的注意力,使这些运算的组合形成原始注意力的低秩因式分解。下表是不同transformer架构的复杂度汇总:理论:自注意力机制矩阵,context mapping matrix P,是低秩的。左边的图,将奇异值分解在不同的层和头运用到P, 画出每10K个句子的归一化累积奇异值平均值,结果显示原创 2022-03-18 12:54:22 · 2650 阅读 · 0 评论 -
Anchor DETR
Anchor DETR: Query Design for Transformer-Based Detector(2021.9)1.DETR的object query是学习的,没有物理意义也不能解释每个query注意哪。作者认为学习出来的object query不能关注特定的区域。本文提出来,object query的是基于anchor point的,这种设计下,每个object query只关注anchor点周围的目标,另外,每个object query可以在一个位置上预测多个目标(多模式)。原创 2022-03-03 14:37:59 · 3008 阅读 · 0 评论 -
【Cross-attention in DETR】
Cross-attention Module理解原创 2022-03-01 20:17:44 · 5443 阅读 · 0 评论 -
【Positional embedding】
Positional embedding本文归纳了transformer-based的模型中的positional-embedding。首先明白第一点:Q: Why need positional embedding in Transformer?A: 跟 CNN/RNN 不同,self-attention并不会记录位置信息。位置编码可以使self-attention记忆位置信息。Transformer’s positional embeddingAttention Is All You Ne原创 2022-03-01 17:01:59 · 2898 阅读 · 0 评论