![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Attention
文章平均质量分 84
汐梦聆海
過去を捨てなくては 未来の場所がない
展开
-
论文阅读《Beyond Self-attention: External Attention using Two Linear Layers for Visual Tasks》
论文链接:https://arxiv.org/pdf/2105.02358.pdfMotivationself-attention在各种视觉任务中大放异彩,相比于卷积这类局部感知的操作,self-attention可以获取更多的long-range dependency,从而学习到融合了全局特征的feature。但是self-attention自身存在两个缺点:(1)计算量太大,计算复杂度与pixel的平方相关;(2)没有考虑不同样本之间的潜在关联,只是单独处理每一个样本,在单个样本内去捕获这类long原创 2021-05-08 22:49:16 · 3705 阅读 · 7 评论 -
论文阅读《Swin Transformer: Hierarchical Vision Transformer using Shifted Windows》
论文链接:https://arxiv.org/abs/2103.14030代码地址: https://github.com/microsoft/Swin-Transformer开源15天,star超3k的作品。作者提出了一个基于transformer的backbone,可用于多种视觉任务。和以往ViT,DETR等结构不同的是,Swin Transformer通过shifted windows操作,实现了CNN里面的hierarchical的结构。这类hierarchical的结构更适用于不同的scale原创 2021-04-29 20:21:17 · 5455 阅读 · 1 评论 -
动态卷积之CondConv和DynamicConv
现在的诸多task中,普遍需要capacity较大的模型,而随着模型参数的不断增加,计算成本也越来越高。对于一些对latency有较高要求的task,显然是一种挑战。在传统的CNN网络中,一旦训练完成,所有的kernal参数就固定了。对于任意的输入,所有的kernal都对他们同等对待。所以为了提高模型的performance,大多数方法堆叠卷积层或者增加卷积层的参数,这种做法显然会造成 computationally expensive。所以为了压缩模型,动态卷积就应运而生。动态卷积的出发点就是,当训练结原创 2021-04-13 11:54:11 · 6722 阅读 · 3 评论 -
论文解读《TransTrack: Multiple-Object Tracking with Transformer》
论文地址:https://arxiv.org/pdf/2012.15460.pdf自从2020年ECCV中DETR在object detection领域惊艳众人以后,这种transformer-based的结构应用到了视觉中很多领域,其中就包括MOT。TransTrack这篇文章应该是transformer第一次应用到MOT上面的尝试,效果SOTA,而且思路个人认为很棒很简洁。以前的MOT任务都是将detection和reid当作两个独立任务来处理,虽然以JDE、FairMOT为代表的方法将两个网络耦合原创 2021-03-18 15:43:40 · 1682 阅读 · 1 评论 -
基于Transformer的目标检测DETR
论文链接:https://www.ecva.net/papers/eccv_2020/papers_ECCV/papers/123460205.pdfTransformer之前在NLP领域大放异彩,但是在CV界平平无奇。自从ECCV20这篇基于transformer的目标检测模型DETR发表以后,transformer在CV中应用的探索越来越广泛,今天先粗浅的解读一下这篇论文,剩下的慢慢学习。在目标检测领域,Faster RCNN无疑是最经典的模型之一。但他需要很多anchor,proposal,以及非原创 2021-03-17 15:25:58 · 5081 阅读 · 2 评论 -
《One-shot Adversarial Attacks on Visual Tracking with Dual Attention》论文笔记
这是cvpr20的一篇与对抗攻击相关的文章。涉及的问题深度学习虽然在cv领域硕果累累,但是它的脆弱性(vulnerable)是众所周知的。通过人眼无法察觉的微小改动,就可以使得神经网络模型产生截然不同的预测。这篇文章涉及的问题是:作者首次将对抗攻击引入到视频目标追踪(Video Object Tracking,VOT)中,研究如何攻击VOT领域中的SOTA模型,如SiamRPN等。与传统的对图像分类或目标检测模型的攻击不同,对VOT模型的攻击涉及以下几个难点:(1)VOT任务大多是online的,因此原创 2020-11-15 00:33:22 · 982 阅读 · 1 评论 -
Transformer笔记
最近transformer在cv领域崭露头角,分类效果直追CNN。也趁机来补习一波在NLP领域已经火了很久的transformer。本文是在看过李宏毅老师的教程之后的理解,意在用最简单的表述讲解transformer。为什么用transformer在seq2seq模型中,最常用的是RNN,但是RNN无法并行计算;而CNN虽然可以并行,但需要多层堆积才可以对全局进行感知(类似于感受野)。因此两个模型的效率都不是太高。所以我们想要用一个模型来取代之,此时Google一篇论文《Attention is al原创 2020-10-20 21:05:26 · 990 阅读 · 1 评论 -
视觉Attention之SENet和CBAM概述
Attention最早出现于NLP中,随着不断的发展,cv中对Attention的应用不断增加,早期两个比较经典的视觉Attention机制分别是SENet和CBAM,分别在17年和18年的大赛中夺魁,本文即对两种算法进行简单的介绍。SENet我们可以通过卷积得到feature map,SENet认为这个feature map中每个通道的重要程度是不一样的,应该给其分配权值,即代表每个通道各自的重要程度,具体的结构示意图如下:在传统的Inception模型的基础上,增加上述module。假设输入是一原创 2020-10-21 23:38:09 · 2666 阅读 · 5 评论