![](https://img-blog.csdnimg.cn/20190927151132530.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
注意力/Transformer/ViT/DETR/Seg
文章平均质量分 90
注意力、Transformer算子、ViT骨干、DETR方法、Seg方法
Hali_Botebie
这个作者很懒,什么都没留下…
展开
-
【Transformer-BEV编码(15)】Sparse4D v2 v3 转onnx可以把use_deformable_func关了,用grid_sample采样算法代替。
根据指定shape生成input和grid,使用pytorch中的grid_sample算子生成output。之后取grid中的第一个位置中的xy,根据xy从input中通过双线性插值计算出output第一个位置的值。print(f'自定义实现输出结果:\n。原创 2024-05-16 15:16:58 · 610 阅读 · 0 评论 -
【Transformer-BEV编码(9)】Sparse4D v2 v3源代码分析。稀疏感知方向新的baseline,相机参数泛化能力差的问题。
基于BEV的稠密融合算法或许并不是最优的多摄融合感知框架。同时特征级的多摄融合也并不等价于BEV。这两年,PETR系列(PETR, PETR-v2, StreamPETR) 也取得了卓越的性能,并且其输出空间是稀疏的。在PETR系列方法中,对于每个instance feature,采用global cross attention来实现多视角的特征融合。由于融合模块计算复杂度仍与特征图尺寸相关,因此其仍然属于稠密算法的范畴,对高分辨率的图像特征输入不够友好。因此,我们希望实现一个高性能高效率的长时序纯稀疏融合原创 2024-05-16 10:05:48 · 1054 阅读 · 0 评论 -
【Transformer-BEV编码(10)】CVPR2021 PYVA 第一个明确提到 cross-attention decoder可用于视图转BEV
我们提出了一种新颖的框架,该框架可以在仅给定前视单眼图像的情况下,在鸟瞰视图中重建由道路布局和车辆占用率形成的本地地图。特别地,我们提出了一个跨视图转换模块,该模块考虑了视图之间循环一致性的约束,并充分利用它们的相关性来加强视图转换和场景理解。考虑到车辆与道路之间的关系,我们还设计了上下文感知判别器以进一步完善结果。原创 2024-05-13 14:12:35 · 589 阅读 · 0 评论 -
【Transformer-BEV编码(8)】Sparse4D v2: Recurrent Temporal Fusion with Sparse Model,计算工作量与输入分辨率无关,适合长距离检测
稀疏算法为多视图时间感知任务提供了极大的灵活性。我们通过实现多帧特征采样的递归形式来改进时间融合模块。通过有效解耦图像特征和结构化锚点特征,Sparse4D能够实现时间特征的高效变换,从而仅通过稀疏特征的逐帧传输来促进时间融合。循环时间融合方法提供了两个主要好处首先,它将时间融合的计算复杂度从 O(T ) 降低到 O(1),从而显着提高推理速度和内存使用量。其次,它能够融合长期信息,由于时间融合而带来更显着的性能提升。原创 2024-05-06 11:32:06 · 1057 阅读 · 0 评论 -
【Transformer-BEV编码(6)】Sparse4D-V3: Sparse-based End-to-end Multi-view Temporal Perception
论文:https://arxiv.org/abs/2311.11722代码:https://github.com/HorizonRobotics/Sparse4D其他:https://zhuanlan.zhihu.com/p/637096473如果不看V1 和V2 是无法理解V3 的,因为V3只是改进了V2的一些东西。增加了去噪模块,质量评估模块和解耦头。其他的还得看V2 哟!原创 2024-04-23 11:25:04 · 1153 阅读 · 0 评论 -
【Transformer-BEV编码(7)】Sparse4D源代码,在mmdet里面增加cuda的插件deformable_aggregation可变形聚合
双线性插值的梯度更新原理基于链式法则,即在反向传播过程中,通过计算损失函数对插值结果的梯度,进一步求得插值过程中各参数(如输入数据、采样位置、权重等)的梯度。这个函数主要用于在图像处理中,当需要从一个浮点坐标获取像素值时,可以通过这个函数基于其最近的四个整数坐标上的像素值进行插值计算,从而得到一个估计值。的Kernel,并传递给它相关的数据和参数。,bilinear_sampling 用于 推理过程中的计算,在训练过程中,需要保证这个经过双线性插值后,权重依然可以被更新,因此需要写相关的代码。原创 2024-04-22 16:43:19 · 877 阅读 · 0 评论 -
【Transformer-BEV编码器(5)】CVPR2023 AeDet: Azimuth-invariant Multi-view 3D Object Detection
LSS 的多视角3D 中,因为忽略了辐射(径向方向)对称性,导致优化困难。为了保留 BEV 特征的固有属性并简化优化,我们提出了方位角等变卷积(AeConv)和方位角等变锚点。AeConv 采用的网格是在辐射方向,因此它能学习到方位角不变性的BEV 特征。提出的anchor 可以开启检测头去学习预测方位角相关性的目标。另外,我们引入了相机解耦虚拟深度去统一深度预测(不同相机内参的图片)。大幅超越了最近的多视图 3D 物体检测器,例如 PETRv2 和 BEVDepth。原创 2024-04-12 20:19:56 · 578 阅读 · 0 评论 -
【Head-DETR系列(3)】2023CVPR最佳论文奖:UniAD: Planning-oriented Autonomous Driving 规划导向的自动驾驶
现代自动驾驶系统的特点是将任务按顺序模块化,即感知、预测和规划。要么为单个任务部署独立的模型,要么用不同的head 设计一个多任务任务网络。他们可能会遭受累积错误AE或缺乏任务协调deficient task coordination。相反,我们认为,为了追求最终目标,即自动驾驶汽车的规划(planning of the self-driving car),应该设计和优化一个有利的框架。原创 2024-04-10 23:13:39 · 1120 阅读 · 0 评论 -
【Transformer-BEV编码器(5)】CVPR2023 时空BEV金字塔:TBP-Former: Learning Temporal Bird’s-Eye-View Pyramid
以视觉为中心的联合感知和预测(PnP)成为自动驾驶研究的新兴趋势。我们提出了一种用于以视觉为中心的 PnP 的时间鸟瞰金字塔变换器(TBPFormer),其中包括两种新颖的设计。首先,提出了一种姿态同步的 BEV 编码器,可以随时将具有任何相机姿态的原始图像输入映射到共享且同步的 BEV 空间,以实现更好的时空同步。其次,引入时空金字塔变换器来全面提取多尺度 BEV 特征,并在空间先验的支持下预测未来的 BEV 状态。原创 2024-04-10 22:53:01 · 932 阅读 · 0 评论 -
【Transformer-BEV编码器(4)】CVPR2023丰田研究院Viewpoint Equivariance for Multi-View 3D Object Detection -视点等变化
BEV 作为cornerstone capability ,非常重要。多视图一致性multi-view consistenc——> 3D 场景理解和几何学习——> 利用 3D multi-view geometry+ 通过viewpoint equivariance ——>改进定位。利用 query-base 的transformer 架构和 3D 场景进行编码(通过使用来自 3D 透视几何的位置编码来增强图像特征)。我们在输出级别设计,这使得能够在训练期间生成多个虚拟帧,以通过强制来学习。原创 2024-04-09 14:33:16 · 1036 阅读 · 0 评论 -
【Attention(0)】卷首语,从“SEAttention注意力效果秒杀CBAM”聊到“Transformer”
Attention 注意力是一个非常有价值的机制,例如我们耳熟能详的。我们常常看到这样的标题。其实,CBAM 是一种“卷积神经网络注意力模块”(Convolutional Block Attention Module, CBAM)。这也是一篇论文《CBAM: Convolutional Block Attention Module》。CBAM旨在自动学习输入特征图的空间和通道注意力权重,从而更好地捕捉图像中的局部信息和全局上下文。CBAM包括两个主要组成部分: 空间注意力模块和通道注意力模块。原创 2024-04-07 15:47:47 · 661 阅读 · 0 评论 -
【Transformer-BEV编码器(3)】BEVFormer v2: Adapting Modern Image Backbones to Bird’s-Eye-View Recognition
现有的最先进的BEV检测器通常与VOVnet等深度预训练主干网有关,阻碍了蓬勃发展的图像主干网和BEV检测器之间的协同作用。为了解决这一限制,我们通过引入透视图监控,优先考虑简化BEV探测器的优化1、作者提出了典型的BEV模型的工作流程2、作者说大家关注视觉转换模块和下游任务,但是对于 backbone 的关注缺乏。作为一个前沿和高需求领域,自然会将现代图像主干引入自动驾驶。令人惊讶的是,研究界选择坚持使用VOVnet[13],以享受其大规模深度培训前[26]。原创 2024-04-03 15:06:58 · 1030 阅读 · 0 评论 -
BEV超视距的范围内,增加一个原本传统的算法,用2D算法去跟踪更加远的物体,但是当它进入到了BEV体系之后,我们可以在几何上做变换,认为它是同一个物体。
如果假设有无限的、准确的结构化数据,确实是不需要激光雷达,可以快速的训练出来一个模型,这个模型因为数据量很大,可以无限接近激光雷达的精度,但因为现在我们的所得到的数据量有限,我们就想又想要得到一个不错效果的车,那么激光雷达放进来,它就是一个好又快、显性度高的补充。成本会增加,难度是在变,大成本是在增加。那么在持续性这个层面,传统车厂要去克服体制的原因,这个情况就是说,我们需要有会做决定的人,他知道要持续的、不断为这个事情,为训练数据收集数据形成数据闭环,去不断的优化算法,这个事情要持续的迭代和升级。转载 2024-03-29 11:06:35 · 55 阅读 · 0 评论 -
【Transformer】Retentive Network (RetNet) —— Transformer 的有力继任者
论文地址:https://arxiv.org/abs/2307.08621分析:https://medium.com/ai-fusion-labs/retentive-networks-retnet-explained-the-much-awaited-transformers-killer-is-here-6c17e3e8add8。转载 2023-11-03 09:01:01 · 199 阅读 · 0 评论 -
OpenAI首席科学家:ChatGPT可能已经有了意识
(转载了原文)转载 2023-11-02 16:37:45 · 162 阅读 · 0 评论 -
【可变形注意力(1)】Multi-scale Deformable Attention Transformers 多尺度变形注意力
1、大多数现代物体检测框架受益于多尺度特征图 (Liu等人,2020)。2、Deformable DETR: Deformable Transformers for End-to-End Object Detection 提出的可变形注意力模块可以自然地扩展为多尺度特征图。原创 2023-10-27 15:54:22 · 2032 阅读 · 0 评论 -
【Attention(1)】注意力机制(attention mechanism)是解决信息超载问题的主要手段的一种资源分配方案:两种分类:自上而下和自下而上
中文名:注意力机制外文名:Attention Mechanism类 别:聚焦式、基于显著性注意力机制(Attention Mechanism)源于对人类视觉的研究。在认知科学中,由于信息处理的瓶颈,人类会选择性地关注所有信息的一部分,同时忽略其他可见的信息。上述机制通常被称为注意力机制。人类视网膜不同的部位具有不同程度的信息处理能力,即敏锐度(Acuity),只有视网膜中央凹部位具有最强的敏锐度。为了合理利用有限的视觉信息处理资源,人类需要选择视觉区域中的特定部分,然后集中关注它。转载 2023-04-27 11:15:08 · 1747 阅读 · 0 评论 -
【Attention(3)】【QKV的注意力机制】 主要思路(笔记)
与我预想的不同,以为一个前馈神经网络就可以输出所有对应的得分,即输出层的维度是与input序列长度一样;1、先进行相似度的值进行归一化后会生成对齐概率值(“I"与source中每个单词的相似度(和为1)),也可以注意力值;这里的v与上面的V是不一样的,这属于一个单隐藏层的前馈神经网络;v属于隐藏层激活后的一个计算得分的权重系数矩阵;3、然后相应的V与相应的P进行加权求和,就得到了context vetor;3、"I"与"中国人"的相似度;1、"I"与"我"的相似度,2、"I"与"是"的相似度;转载 2023-04-27 10:48:29 · 1423 阅读 · 0 评论 -
【Attention(4)】【QKV的自注意力机制】 主要思路(笔记)
也就是说,X 序列每一个长度为 Dx,输入系统(输入N 个(这里设 N=3)),则此时得到三个长度为Dk的向量,每一个向量得到一个对应的Q K V,不改变输入的 X 的对应 N 这部分的维度,但是将长度 Dx 改变为了 Dv(这里的 Dv 是可以任意设置的,只要通过操作此时从 X 到值 V 的投影操作对应的矩阵 Wv 就可以了)想要模拟全连接神经网络的思路来构建一种更好的,可以处理变长输入序列 + 捕捉长距离关系的模型,可以考虑利用注意力机制来 动态地 生成权重,这也就是 自注意力模型 的主要思路。转载 2023-04-27 09:45:36 · 1518 阅读 · 0 评论 -
【Attention(9)】【CNN-attention机制】Squeeze-and-Excitation Networks(SENet)通过压缩与激励实现特征强化,最简单最易实现的SE模块
Squeeze-and-Excitation Networks(SENet)是由自动驾驶公司Momenta在2017年公布的一种全新的图像识别结构,它通过对特征通道间的相关性进行建模,把重要的特征进行强化来提升准确率。这个结构是2017 ILSVR竞赛的冠军,top5的错误率达到了2.251%,比2016年的第一名还要低25%,可谓提升巨大。这么大的提升是怎么来的呢?今天就来介绍下这个冠军背后的原理细节。一、结构和原理图1是SENet的Block单元,图中的Ftr是传统的卷积结构,X和U是Ftr的输入转载 2023-04-27 09:31:03 · 950 阅读 · 0 评论 -
【Attention(10)】RNN->Seq2Seq->Attention->Self-Attention->Transformer
在Seq2Seq结构中,编码器Encoder把所有的输入序列都编码成一个统一的语义向量Context,然后再由解码器Decoder解码。在解码器Decoder解码的过程中,不断地将前一个时刻t-1 的输出作为后一个时刻 t 的输入,循环解码,直到输出停止符为止。与经典RNN结构不同的是,Seq2Seq结构不再要求输入和输出序列有相同的时间长度!转载 2023-04-26 17:11:31 · 45 阅读 · 0 评论 -
【Transform(5)】来源于《Attention is all you need》的Transformer 的结构怎样的?与注意力机制有什么联系?
Vaswani et al. 在2017年发表了论文,介绍了Self-attention以及基于前者的Transformer架构。我的栏目其他文章已经介绍了:seq2seq结构,经典的attention结构,QKV注意力机制,自注意力机制,多头注意力机制。以此为基础知识,现在讨论:Transformer。讲完了transformer,我后续有机会会讲一下BERT。转载 2023-04-26 16:57:04 · 223 阅读 · 0 评论 -
【Attention(11)】经典Attention架构:Bahdanau Attention Mechanism 和Luong Attention
Bahdanau et al. 在2014年发表了论文Neural Machine Translation by Jointly Learning to Align and Translate 首次提出了Attention注意力机制,爆火RNN网络。后来出现了一些变种,如Luong et al. 在2015年发表的 Effective Approaches to Attention-based Neural Machine Translation。转载 2023-04-26 16:10:55 · 390 阅读 · 0 评论 -
三种传统Seq2Seq的框图,简单理解
统的Seq2Seq模型Encoder负责将输入序列x1 x2 x3 编码;图中的方块可以是一个简单的RNN单元,也可以是LSTM或者GRU单元。Encoder的最后一个hidden state作为Decoder的输入;我们把这个输入Decoder的向量称为context vector,即图中的c。注意,这个向量是固定长度的,不随输入序列的长度变化。上图展示的是Auto-regressive mode,即Decoder的前一个输出yi-1 输入进下一个单元,用于生成yi。转载 2023-04-26 15:57:12 · 380 阅读 · 0 评论 -
【transformer(15)】Swin Transformer using shifted windows,一种新的视觉变压器,称为Swin变压器,它可以用作计算机视觉的通用主干
见证了自然语言处理 (NLP) 的巨大成功,最近人们对将变形金刚引入视觉任务的兴趣激增。Dosovitskiy等人 [6] 提出了用于图像分类的视觉变换器 (ViT)。按照NLP中的Transformer设计,作者将图像分成多个线性嵌入的补丁,然后将它们馈送到带有位置嵌入 (PE) 的标准变压器中,从而在ImageNet上取得了令人印象深刻的性能。在语义分割中,Zheng等人 [7] 提出了SETR,以证明在此任务中使用变压器的可行性。SETR采用ViT作为骨干,并结合了多个CNN解码器以扩大特征分辨率。翻译 2023-04-23 15:50:05 · 1081 阅读 · 0 评论 -
【SegFormer(1)】SegFormer Simple and Efficient Design for Semantic Segmentation with Transformers环境适应强
我们介绍了SegFormer,这是一种简单,有效但功能强大的语义分割框架,它将变压器与轻型多层感知器 (MLP) 解码器统一在一起。我们扩大了我们的方法,以获得从SegFormer-B0到SegFormer-B5的一系列模型,达到比以前的同行明显更好的性能和效率。例如,SegFormer-B4在64M参数的ADE20K上实现了50.3% mIoU,比以前的最佳方法小5倍,2.2% 更好。翻译 2023-04-19 09:51:08 · 928 阅读 · 0 评论 -
【Transformer(17)】Flowformer论文,提出了任务通用的线性复杂度主干网络
注意力机制具有二次复杂性,极大地阻碍了变压器处理众多令牌并扩展到更大的模型。以前的方法主要利用相似性分解(similarity decomposition)和矩阵乘法(associativity of matrix multiplication)的关联性来设计线性时间(linear-time)注意机制。通过重新引入诸如局部性的归纳偏差(inductive biases),他们避免了对琐碎分布的关注,从而以模型的通用性和表现力为代价。翻译 2023-04-19 09:35:33 · 471 阅读 · 0 评论 -
这个月 google的“AI具备意识”的事件的想法
当2017年google提出了Transformer神经结构,我是觉得,使用该结构的AI已经(能够像人脑一样)有了跨区域的注意力,以及具有将“输入的信息”转换成“另一种信息”的能力,例如把文字转换成图像,声音,或者另外一种文字。2020年5月发布的GPT-3模型,从工程应用角度说明AI 可以准确注意人类的语言的含义。我们最近智能驾驶研究,也在对于多相机的输入图像信息基于注意力进行联合后输出单一的物理信息,省去了写多相机融合代码的步骤。我理解的“意识”=主观能动性=人格=趋利避害=隐藏想法=说谎。这个月 go原创 2022-07-09 15:24:33 · 264 阅读 · 0 评论 -
【Head-DETR系列(1)】视觉领域的首创DETR,End-to-End Object Detection with Transformers网络的主要组成是CNN和Transformer
作为【Head-DETR系列】的开篇之作,接下来,我将按照 Transformer–>detr–>deforable detr–>ConditionalDetr—>DABDetr 讲解这个系列。转载 2022-06-24 15:39:52 · 854 阅读 · 0 评论 -
【Transform(1)】【NLP】首次提出Transformer,Google Brain团队2017年论文《Attention is all you need》
论文:《Attention is all you need》1、序列转导模型的组成:2、基于注意力机制我们提出了一种新的简单网络架构,即 Transformer,它完全基于注意力机制,完全消除了递归和卷积。3、典型应用场景Transformer 成功应用于具有大量和有限训练数据的英语选区解析,可以很好地推广到其他任务。循环神经网络(Recurrent neural networks),特别是长短期记忆 [13](long short-term memory) 和门控循环 [7] 神经网络(gated rec翻译 2022-06-24 15:38:38 · 2559 阅读 · 0 评论 -
【Transform(3)】【实践】使用Pytorch的torch.nn.MultiheadAttention来实现self-attention
本文侧重于Pytorch中对self-attention的具体实践,具体原理不作大量说明,self-attention的具体结构请参照下图。(图中为输出第二项attention output的情况,k与q为key、query的缩写)本文中将使用Pytorch的torch.nn.MultiheadAttention来实现self-attention.所谓的multihead-attention 是对KQV的并行计算。原始的attention 是直接计算“词向量长度(维度)的向量”,而Multi是先将“词向量长转载 2022-06-24 15:37:02 · 7035 阅读 · 4 评论 -
【transformer(11)】入门篇-哈佛Harvard NLP的原作者在2018年初以逐行实现的形式呈现了论文The Annotated Transformer
由于 Transformer 的使用已经变得普遍,并且我们的实现几乎与原始实现相同,因此我们将省略对模型架构的详尽背景描述,并将读者推荐给 Vaswani (2017) 以及优秀的指南,如“带注释的The Annotated Transformer”。推荐:http://nlp.seas.harvard.edu/2018/04/03/attention.htmlAshish Vaswani, 2017. Attention is all you need. In Advances in Neur转载 2022-06-17 16:03:12 · 1730 阅读 · 1 评论 -
【Attention(2)】 自上而下的会聚式注意力,注意力机制怎么运行的?自注意力是什么,为何会产生?多头注意力机制是什么?
文章目录1、最开始提出的:注意力机制2、然后提出的:自注意力机制3、然后Transform(仅仅自注意力和前馈网络来进行编码和解码)细说Transform 流程参考1、最开始提出的:注意力机制当使用神经网络来处理大量的输入信息时,也可以借鉴人脑的注意力机制,只选择一些关键的信息输入进行处理,来提高神经网络的效率。在目前的神经网络模型中,我们可以将最大汇聚(max pooling)、门控(gating)机制来近似地看作是自下而上的基于显著性的注意力机制。除此之外,自上而下的会聚式注意力也是一种有效的信息选原创 2022-05-20 17:27:31 · 924 阅读 · 0 评论