注意力
文章平均质量分 92
calvinpaean
Carpe diem.
展开
-
GhostNetV3 论文学习
但是这些网络的训练策略仍借鉴于传统的模型,这就忽视了它们在模型性能上的差异,可能制约精简模型的表现。GhostNets 在移动设备上取得了 SOTA 表现,核心模块就是 Ghost 模块,通过低成本操作产生更多的特征图,从而替代原有的特征图。受到传统模型训练的启发,作者对这两个模块使用了重参数化,实现更好的表现。但是,人们提出的训练策略很多是针对传统模型的,很少有针对精简模型的。直接将传统模型的训练策略照搬在精简模型上是不恰当的。KD 是模型压缩的常用方法,大教师模型预测的结果作为小型学生模型的学习目标。原创 2024-04-27 14:57:37 · 734 阅读 · 0 评论 -
Transformer 中 Self-attention 的计算复杂度
Transformer 和 DETR 里面的计算复杂度原创 2022-08-11 13:11:05 · 4950 阅读 · 1 评论 -
VOLO Vision Outlooker for Visual Recognition论文分析
Abstract多年来,CNN 主导着视觉识别任务。尽管最近 ViTs 在 ImageNet 分类任务上展现了自注意力模型不俗的潜力,但如果没有额外数据支撑的话,仍要弱于 SOTA 卷积模型。本文作者尝试弥补性能的差距,证明基于注意力的模型能超越 CNN。作者发现对于 ImageNet 分类任务,限制 ViT 性能的主要因素就是它们不擅长在 token 表征中编码细粒度特征。为了解决这个问题,作者引入了一个新的 outlook 注意力,提出了一个简单而通用的架构,叫做 Vision Outlooker(V原创 2021-06-29 19:08:43 · 2223 阅读 · 5 评论 -
CoAtNet Marrying Convolution and Attention for All Data Sizes 论文学习
AbstractTransformers 在计算机视觉任务上得到了越来越多的关注,但仍落后于 SOTA 卷积网络。本文作者证明,尽管 Transformers 具有更强的模型能力,但因为缺乏归纳偏置特性,它的泛化性要落后于 CNN。为了有效地结合二者的长处,作者提出了 CoAtNets,它的构建主要基于两个关键想法:(1)我们可以通过简单的相对注意力将深度卷积和自注意力自然统一;(2)在提升泛化性、能力和效率方面,按照一定的原则,垂直摆放卷积层和注意力层会非常有效。实验证明,CoAtNets 在多个数据集原创 2021-06-28 16:34:58 · 1675 阅读 · 0 评论 -
X-volution On the Unification of Convolution and Self-attention 论文学习
Abstract卷积和自注意力是DNN中的两个基本模块,前者以线性的方式提取局部图像特征,后者从全局的角度对高阶语义关系做编码。尽管二者在本质上是可以互补的(一阶/高阶),但 CNN 或 Transformers 都无法同时将二者应用在单个计算模块中,因为二者的计算模式不同,图像运算中点积过多。本文,作者系统地推导了一个全局自注意力近似机制,对变换特征,通过卷积操作来近似实现自注意力。基于该机制,作者构建了一个多分支基础模块,由卷积和自注意力组成,能够统一局部和非局部特征的传递。一旦训练好了,这个多分支模原创 2021-06-24 11:39:09 · 439 阅读 · 1 评论 -
Dynamic head: unifying object detection heads with attention 论文学习
Abstract目标检测的本质就是将定位和分类结合起来。以前的方法无法从统一的角度来提升目标检测heads的性能。本文中,作者提出了一个创新的动态 head 框架,将目标检测heads和注意力结合起来。该方法在各特征层级之间将多个自注意力机制结合起来以获得尺度信息,在各空间位置之间以获得空间信息,在各输出通道之间以获得任务信息,极大地提升了目标检测heads的特征表示能力,而没有增加计算成本。在 COCO 基准上的实验证明了该动态head的表现。以 ResNeXt-101-DCN 为主干网络,取得了 54原创 2021-06-18 14:01:48 · 906 阅读 · 1 评论 -
Multi-branch and Multi-scale Attention Learning for Fine-Grained Visual Categorization 论文学习
AbstractILSVRC(ImageNet大规模视觉识别挑战赛)是计算机视觉领域最权威的学术竞赛之一。直接将 ILSVRC 每年的冠军方案应用在细粒度视觉分类(FGVC)任务上无法取得很好的表现。对于 FGVC 任务而言,类间差异小而类内差异大的特点使这个问题变得很有挑战性。本文的注意力目标定位模块(AOLM)可以预测目标的位置,注意力局部提议模块(APPM)可以发现信息丰富的局部区域,无需边框或部分标注信息的帮助。得到的目标图像不仅包含目标的全部结构,也包含更多的细节信息,局部图像有多个不同的尺度和原创 2021-04-03 17:56:08 · 2815 阅读 · 1 评论 -
An image is worth 16x16 words: Transformers for image recognition at scale 论文学习
论文地址:https://arxiv.org/pdf/2010.11929.pdfAbstract尽管 Transformer 结构已经成为 NLP 领域的一个事实上的标准方法,它在计算机视觉领域中的应用仍受限制。在视觉领域,注意力要么与卷积网络搭配使用,要么替换掉卷积网络中的特定组成,保留其整体结构。作者证明我们并不是一定要依赖 CNN,直接用 Transformer 对图像块序列做预测也能在图像分类任务上取得不错的表现。当我们在大规模数据集上预训练,然后再在多个中等规模或小规模数据集(ImageNe原创 2021-02-26 18:11:42 · 299 阅读 · 0 评论 -
Attention is all you need 论文学习
Abstract目前主流的序列转导模型都是基于复杂的递归或卷积神经网络,包含一个编码器和解码器。表现最佳的模型也是通过一个注意力机制,将编码器和解码器联系起来。本文提出了一个新的网络结构,Transformer,只使用了注意力机制,彻底抛弃了递归和卷积操作。在两个机器翻译任务上,实验结果表明这些模型表现非常优异,可以并行计算,大幅度减少了训练时间。在 WMT 2014 英语-德语翻译任务上,该模型取得了 28.4 BLEU 的成绩,提升了现有的最好成绩将近 2 BLEU。在 WMT 2014 英语-法语翻原创 2021-02-11 01:24:50 · 164 阅读 · 1 评论