高质量人类CV论文翻译
文章平均质量分 94
本专栏是对常用的经典论文翻译,欢迎大家订阅
优惠券已抵扣
余额抵扣
还需支付
¥79.90
¥99.00
购买须知?
本专栏为图文内容,最终完结不会低于15篇文章。
订阅专栏,享有专栏所有文章阅读权限。
本专栏为虚拟商品,基于网络商品和虚拟商品的性质和特征,专栏一经购买无正当理由不予退款,不支持升级,敬请谅解。
AI浩
2022年博客之星Top8,2021年博客之星Top6,博客专家,华为云云享专家,十佳博主,阿里云专家博主,拥有多项发明专利并参与过国家重大专项,拥有丰富的开发经验。注重理论与实践的结合,让AI学起来不再枯燥。如果大家在看文章的时候,发现了文章的错误,烦请指出,我会及时纠正。
展开
-
专栏目录汇总
【第61篇】AlexNet:CNN开山之作【第1篇】VGG【第2篇】GooLeNet【第3篇】Inception V2【第4篇】Inception V3【第62篇】Inception-v4【第5篇】ResNet【第10篇】DenseNet【第16篇】Swin Transformer【第49篇】Swin Transformer V2:扩展容量和分辨率【第21篇】MAE(屏蔽自编码器是可扩展的视觉学习器)【第22篇】CoAtNet:将卷积和注意力结合到所有数据大小上【第25篇】力压Tramsformer,Con原创 2023-01-01 15:20:38 · 929 阅读 · 1 评论 -
【第61篇】AlexNet:CNN开山之作
摘要。原创 2022-12-31 10:27:56 · 600 阅读 · 1 评论 -
DeBiFormer: Vision Transformer with Deformable Agent Bi-level Routing Attention
带有各种注意力模块的视觉Transformer在视觉任务上已表现出卓越的性能。虽然使用稀疏自适应注意力(如在DAT中)在图像分类任务中取得了显著成果,但在对语义分割任务进行微调时,由可变形点选择的关键值对缺乏语义相关性。BiFormer中的查询感知稀疏注意力旨在使每个查询关注前kkk个路由区域。然而,在注意力计算过程中,所选的关键值对受到过多不相关查询的影响,从而降低了对更重要查询的关注度。原创 2024-10-14 19:51:12 · 957 阅读 · 0 评论 -
Container: 上下文聚合网络
卷积神经网络(CNNs)在计算机视觉中无处不在,存在着大量有效且高效的变体。最近,原本在自然语言处理中引入的Transformer越来越多地被应用于计算机视觉领域。虽然早期采用者继续使用CNN作为主干网络,但最新的网络已经是端到端无需CNN的Transformer解决方案。最近一个令人惊讶的发现表明,一个没有任何传统卷积或Transformer组件的基于简单多层感知器(MLP)的解决方案可以产生有效的视觉表征。原创 2024-10-12 05:58:08 · 50 阅读 · 0 评论 -
Next-ViT:下一代视觉Transformer,用于现实工业场景中的高效部署
我们展示了如图2所示的Next-ViT。按照惯例,Next-ViT遵循带有补丁嵌入层和每个阶段一系列卷积或Transformer块的层次金字塔架构。空间分辨率将通过每个阶段减少32倍,而通道维度将在不同阶段扩展。在本章中,我们首先深入设计信息交互的核心块,并分别开发了强大的NCB和NTB来模拟视觉数据中的短期和长期依赖性。局部和全局信息的融合也在NTB中执行,这进一步增强了建模能力。最后,我们系统地研究了集成卷积和Transformer块的方式。原创 2024-10-04 19:47:31 · 647 阅读 · 0 评论 -
General OCR Theory: Towards OCR-2.0 via a Unified End-to-end Model
传统的OCR系统(OCR-1.0)越来越无法满足人们对智能处理人造光学字符的需求。在本文中,我们将所有人造光学信号(例如,普通文本、数学/分子公式、表格、图表、乐谱,甚至是几何形状)统称为“字符”,并提出了通用OCR理论以及一个优秀的模型,即GOT,以促进OCR-2.0的到来。GOT拥有5.8亿参数,是一个统一的、优雅的、端到端的模型,由高压缩编码器和长上下文解码器组成。作为一个OCR-2.0模型,GOT可以在各种OCR任务下处理上述所有“字符”。原创 2024-09-18 09:03:32 · 1218 阅读 · 0 评论 -
SAM 2:分割图像和视频中的任何内容
我们提出了“Segment Anything Model 2”(SAM 2),这是一种基础模型,旨在解决图像和视频中的可提示视觉分割问题。我们构建了一个数据引擎,该引擎通过用户交互改进模型和数据,以收集迄今为止最大的视频分割数据集。我们的模型采用带有流式内存的简单变换器架构,适用于实时视频处理。使用我们的数据进行训练的SAM 2在广泛的任务中表现出色。在视频分割方面,我们观察到比先前方法更高的准确性,同时所需的交互次数减少了3倍。原创 2024-09-08 08:35:56 · 973 阅读 · 0 评论 -
Mamba中的Mamba:在标记化Mamba模型中的集中式Mamba跨扫描高光谱图像分类
高光谱图像(HSI)分类在遥感(RS)领域至关重要,尤其是随着深度学习技术的不断进步。顺序模型,如循环神经网络(RNNs)和Transformer,已被定制用于此任务,并提供了独特的视角。然而,它们面临几个挑战:1)RNNs在聚合中心特征方面存在困难,并且对干扰像素敏感;2)Transformer需要广泛的计算资源,并且在HSI训练样本有限时往往表现不佳。为了解决这些问题,最近的进展引入了状态空间模型(SSM)和Mamba,它们在线性序列处理中以其轻量级和并行扫描能力而闻名,从而在RNNs和Transfor原创 2024-07-20 16:51:44 · 1509 阅读 · 0 评论 -
无需向量量化的自回归图像生成
传统观点认为,用于图像生成的自回归模型通常伴随着向量量化的标记。我们观察到,尽管离散值空间可以方便地表示分类分布,但它对于自回归建模来说并不是必需的。在这项工作中,我们提出使用扩散过程来建模每个标记的概率分布,这使得我们可以在连续值空间中应用自回归模型。我们定义了一个扩散损失函数来建模每个标记的概率,而不是使用分类交叉熵损失。这种方法消除了对离散值标记器的需求。我们在包括标准自回归模型和广义掩码自回归(MAR)变体在内的广泛案例中评估了其有效性。原创 2024-06-28 18:47:40 · 1727 阅读 · 1 评论 -
DenseNets再探索:超越ResNets和ViTs的范式转变
摘要:本文重新探讨了密集连接的卷积网络(DenseNets),并揭示了其在当前主流的ResNet风格架构之上的被低估的有效性。我们认为,DenseNets的潜力被忽视的原因在于未得到充分研究的训练方法以及传统设计元素未能完全展现其能力。我们的初步研究表明,通过拼接实现的密集连接非常强大,证明了DenseNets可以通过复兴来与现代架构竞争。我们系统地改进了次优组件——包括架构调整、块重新设计以及改进的训练策略,旨在拓宽DenseNets并提升内存效率,同时保持拼接的快捷连接。我们的模型采用简单的架构元素,原创 2024-07-02 20:11:26 · 513 阅读 · 0 评论 -
MobileNetV4——移动生态系统的通用模型
论文链接:https://arxiv.org/pdf/2404.10518我们推出了最新一代的MobileNets,称为MobileNetV4(MNv4),其特点是为移动设备提供普遍高效的架构设计。在核心部分,我们引入了通用倒置瓶颈(UIB)搜索块,这是一种统一且灵活的结构,融合了倒置瓶颈(IB)、ConvNext、前馈网络(FFN)以及新型Extra Depthwise(ExtraDW)变体。原创 2024-04-26 20:30:00 · 2365 阅读 · 0 评论 -
YOLC: You Only Look Clusters for Tiny Object Detection in Aerial Images
由于以下因素,从航拍图像中检测物体面临着重大挑战:1)航拍图像通常具有非常大的尺寸,通常有数百万甚至数亿像素,而计算资源有限。2)物体尺寸较小导致有效信息不足,无法进行有效检测。3)物体分布不均匀导致计算资源浪费。为了解决这些问题,我们提出YOLC(You Only Look Clusters),一种基于无锚点目标检测器CenterNet的高效且有效的框架。为了克服大规模图像和非均匀物体分布带来的挑战,我们引入了一个局部尺度模块(LSM),该模块自适应地搜索聚类区域以进行缩放以进行准确检测。原创 2024-04-16 20:45:00 · 2637 阅读 · 0 评论 -
ELA:深度卷积神经网络的高效局部注意力机制
注意力机制由于其能够有效提升深度神经网络性能的能力,在计算机视觉领域获得了广泛认可。然而,现有方法往往难以有效利用空间信息,或者在利用空间信息的同时会牺牲通道维度或增加神经网络的复杂性。为了解决这些局限性,本文提出了一种高效的局部注意力(ELA)方法,该方法以简单的结构实现了显著的性能提升。通过分析坐标注意力方法的局限性,我们发现了批量归一化缺乏泛化能力、维度减少对通道注意力的不利影响以及注意力生成过程的复杂性等问题。为了克服这些挑战,我们提出了将一维卷积和组归一化特征增强技术融入ELA的方法。原创 2024-04-05 07:48:08 · 1641 阅读 · 1 评论 -
EfficientVMamba:轻量级视觉Mamba的空洞选择性扫描
https://arxiv.org/pdf/2403.09977.pdf摘要。先前的轻量级模型开发努力主要集中在基于CNN和Transformer的设计上,但仍面临持续的挑战。CNN擅长局部特征提取,但会牺牲分辨率,而Transformer提供了全局范围,但会加剧计算需求O(N2)\mathcal{O}(N^{2})O(N2)。这种持续存在的准确性和效率之间的权衡仍然是一个重大障碍。最近,状态空间模型(SSM),如Mamba,已在语言建模和计算机视觉等各种任务中显示出出色的性能和竞争力,同时将全局信息提取原创 2024-03-28 18:29:51 · 1499 阅读 · 2 评论 -
ECA-Net:用于深度卷积神经网络的高效通道注意力
最近,通道注意机制已被证明在改善深度卷积神经网络(CNN)的性能方面具有巨大潜力。然而,大多数现有方法致力于开发更复杂的注意模块以实现更好的性能,这不可避免地会增加模型的复杂性。为了克服性能和复杂性折衷之间的矛盾,本文提出了一种有效的信道注意(ECA)模块,该模块仅包含少量参数,同时带来明显的性能提升。通过剖析SENet中的通道注意模块,我们从经验上表明避免降维对于学习通道注意很重要,并且适当的跨通道交互可以在保持性能的同时显着降低模型的复杂性。原创 2024-03-24 10:22:04 · 237 阅读 · 3 评论 -
Poly Kernel Inception Network在遥感检测中的应用
遥感图像(RSI)中的目标检测近年来引起了广泛关注[11, 56, 64]。这项任务致力于在RSI中识别特定目标的存在,并随后确定它们的类别和精确位置。与通常产生水平边界框的通用目标检测不同,遥感目标检测旨在生成与目标方向准确对齐的边界框。因此,先前的许多努力都致力于开发各种有向边界框(OBB)检测器[10, 20, 31, 65, 67, 71],并改进OBB的角度预测精度[68,70,72-74]。然而,在改善用于目标检测的特征提取方面,RSI的独特特性仍相对缺乏深入研究。原创 2024-03-19 07:10:45 · 1055 阅读 · 4 评论 -
焦点调制网络
我们提出了焦点调制网络(简称FocalNets),其中自注意力(SA)被焦点调制模块完全取代,用于在视觉中建模令牌交互。焦点调制包含三个组件:(i)焦点上下文化,通过堆叠深度卷积层实现,以从短到长范围编码视觉上下文;(ii)门控聚合,用于选择性地收集上下文信息到每个查询令牌的调制器中;(iii)元素级仿射变换,将调制器注入查询中。原创 2024-03-12 21:12:01 · 551 阅读 · 0 评论 -
TransNeXt:ViT的鲁棒Foveal视觉感知
论文:https://arxiv.org/pdf/2311.17132.pdf由于残差连接中的深度退化效应,许多依赖堆叠层进行信息交换的高效视觉Transformer模型往往无法形成充分的信息混合,导致不自然的视觉感知。为了解决这个问题,本文提出了聚合注意力(Aggregated Attention),这是一种基于仿生设计的令牌混合器,它模拟了生物的中心凹视觉和连续的眼球运动,同时使特征图上的每个令牌都能具有全局感知能力。原创 2024-03-08 19:16:14 · 283 阅读 · 0 评论 -
YOLOv9:使用可编程梯度信息学习您想学习的内容
基于深度学习的模型在计算机视觉、语言处理和语音识别等各个领域都表现出了比过去的人工智能系统更好的性能。近年来,深度学习领域的研究人员主要关注如何开发更强大的系统架构和学习方法,如卷积神经网络(CNNs)[21-23, 42, 55, 71, 72]、Transformers[8, 9, 40, 41, 60, 69, 70]、Perceivers[26, 26, 32, 52, 56, 81, 81]和Mambas[17, 38, 80]。原创 2024-03-01 19:50:25 · 440 阅读 · 0 评论 -
Mamba-UNet:用于医学图像分割的类似UNet的纯视觉Mamba网络
所提出的Mamba-UNet的架构如图2所示,其灵感来源于UNet [24] 和 Swin-UNet [3]。首先将大小为 H × W × 1 的2D灰度图像分割成类似于ViT和VMamba的块 [5,16],然后转换为维度为 H/4 × W/4 × 16 的1D序列。一个初始的线性嵌入层将特征维度调整为任意大小C。这些块令牌随后通过多个VSS块和块合并层进行处理,以创建分层特征。块合并层负责下采样和维度增加,而VSS块则专注于学习特征表示。原创 2024-02-14 12:53:25 · 4882 阅读 · 3 评论 -
Shape-IoU:考虑边框形状与尺度的度量
作为检测器定位分支的重要组成部分,边界框回归损失在目标检测任务中发挥着重要作用。现有的边界框回归方法通常考虑真实框(GT box)与预测框之间的几何关系,并使用边界框的相对位置和形状来计算损失,而忽略了边界框的固有属性(如形状和尺度)对边界框回归的影响。为了弥补现有研究的不足,本文提出了一种专注于边界框本身形状和尺度的边界框回归方法。首先,我们分析了边界框的回归特性,发现边界框本身的形状和尺度因素会对回归结果产生影响。原创 2024-01-07 10:51:45 · 1138 阅读 · 0 评论 -
通过生成表征的自条件图像生成
本文提出了表示条件图像生成(Representation-Conditioned Image Generation,简称RCG),这是一个简单而有效的图像生成框架,在类别无条件的图像生成中设置了新的基准。RCG不依赖于任何人类标注,而是依赖于一种自监督表示分布,该分布是使用预训练编码器从图像分布中映射出来的。在生成过程中,RCG使用表示扩散模型(Representation Diffusion Model,简称RDM)从这样的表示分布中进行采样,并使用像素生成器根据采样的表示来生成图像像素。原创 2023-12-22 18:03:47 · 537 阅读 · 0 评论 -
TransXNet:使用双动态令牌混合器学习全局和局部动态以实现视觉识别
这段文字主要讨论了计算机视觉中的两种模型:Vision Transformer (ViT) 和 Swin Transformer。ViT使用多头自注意力(MHSA)进行长距离建模,取得了显著的进展,但由于其自身没有固有地编码归纳偏置,因此相对于卷积神经网络(CNN),其泛化能力较弱。为了解决这一限制,Swin Transformer引入了移位窗口自注意力,这种结构既引入了归纳偏置,又降低了MHSA的计算成本。但由于Swin Transformer是基于窗口的局部性质,其感受野有限。原创 2023-12-16 13:38:13 · 1133 阅读 · 0 评论 -
AKConv:具有任意采样形状和任意数目参数的卷积核
基于卷积运算的神经网络在深度学习领域取得了显著的成果,但标准卷积运算存在两个固有缺陷。一方面,卷积运算被限制在一个局部窗口,不能从其他位置捕获信息,并且其采样形状是固定的;另一方面,卷积核的大小是固定为k × k的,它是一个固定的方形形状,参数的数量往往与大小成正比。很明显,在不同的数据集和不同的位置,目标的形状和大小是不同的。具有固定样本形状和正方形的卷积核不能很好地适应不断变化的目标。原创 2023-11-29 22:00:00 · 1988 阅读 · 0 评论 -
YOLO的全面综述:从YOLOv1到最新版本
YOLO已成为机器人、无人驾驶汽车和视频监控应用的核心实时目标检测系统。我们全面分析了YOLO的演变,研究了从原始YOLO到YOLOv8、YOLO-NAS和带有Transformer的YOLO的每次迭代的创新和贡献。我们首先描述了标准指标和后处理;然后,我们讨论了每个模型在网络架构和训练技巧方面的主要变化。最后,我们总结了YOLO开发的重要经验教训,并对其未来提出了看法,强调了增强实时目标检测系统的潜在研究方向。关键词YOLO·目标检测·深度学习·计算机视觉。原创 2023-12-07 22:07:18 · 6635 阅读 · 2 评论 -
UniRepLKNet:用于音频、视频、点云、时间序列和图像识别的通用感知大内核ConvNet
大核卷积神经网络(ConvNets)最近受到了广泛的研究关注,但存在两个未解决的关键问题需要进一步研究。(1)现有大核ConvNets的架构在很大程度上遵循传统ConvNets或Transformers的设计原则,而大核ConvNets的架构设计仍未得到充分解决。(2)随着Transformer 在多种模式下的主导地位,尚待研究的是,ConvNets是否在视觉以外的领域也具有强大的通用感知能力。本文从两个方面进行了贡献。原创 2023-12-07 20:33:53 · 1745 阅读 · 0 评论 -
Hiera:一个没有花哨的分层视觉转换器
现代分层视觉转换器在追求监督分类性能时增加了几种视觉特定组件。虽然这些组件可以提高准确性和吸引人的浮点运算次数,但增加的复杂性实际上使这些转换器比普通ViT转换器慢。在本文中,我们认为这种额外的复杂性是不必要的。通过使用强大的视觉预训练任务(MAE)进行预训练,我们可以从最先进的视觉转换器中去除所有花里胡哨的东西,同时不会丢失准确性。在此过程中,我们创建了Hiera,这是一种极其简单的分层视觉转换器,它比以前的模型更准确,同时在推理和训练过程中速度更快。我们在各种图像和视频识别任务上评估了Hiera。原创 2023-11-27 06:17:43 · 1106 阅读 · 0 评论 -
RevCol:可逆的柱状神经网络
信息瓶颈原则(IB)(Tishby等人,2000年;Tishby和Zaslavsky,2015年)统治着深度学习世界。考虑图1(a)中的典型监督学习网络:靠近输入的层包含更多低级信息,而靠近输出的特征则富含语义含义。换句话说,与目标无关的信息在逐层传播过程中逐渐被压缩。原创 2023-11-24 18:50:15 · 1838 阅读 · 2 评论 -
DSCNet:基于拓扑几何约束的动态蛇形卷积管状结构分割
拓扑管状结构(如血管和道路)的准确分割在各个领域都至关重要,可以确保下游任务的准确性和效率。然而,许多因素使任务复杂化,包括薄的局部结构和可变的全局形态。在这项工作中,我们注意到管状结构的特殊性,并利用这一知识指导我们的DSCNet在三个阶段同时增强感知:特征提取、特征融合和损失约束。首先,我们提出了一种动态蛇形卷积,通过自适应聚焦细长和弯曲的局部结构来准确捕捉管状结构的特征。随后,我们提出了一种多视角特征融合策略,以补充特征融合过程中对多个视角特征的关注,确保保留来自不同全局形态的重要信息。原创 2023-11-21 05:57:43 · 423 阅读 · 0 评论 -
抗混叠在微小目标检测中的重要性
小物体检测在研究社区中获得了相当大的关注,这是由于在许多关键的现实世界场景中经常出现小物体。然而,作为目标检测架构的主干,卷积神经网络(CNN)在降采样操作过程中通常忽略奈奎斯特采样定理,导致混叠和性能下降。对于占据像素非常少的小物体来说,这可能是一个特别的问题,因为它们具有高空间频率特征。本文将现有的抗混叠方法WaveCNet应用于小物体检测。WaveCNet通过用小波池化(WaveletPool)层替换CNN中的标准降采样过程来消除混叠,有效地抑制了混叠。原创 2023-11-21 21:01:27 · 279 阅读 · 0 评论 -
RT-DERT:在实时目标检测上,DETRs打败了yolo
论文:https://arxiv.org/pdf/2304.08069.pdf最近,基于Transformer的端到端检测器(DETRs)取得了显著的成果。然而,DETRs的高计算成本限制了它们的实际应用,并阻止了它们充分利用无后处理(例如非极大值抑制(NMS))的优势。在本文中,我们首先分析了NMS对现有实时目标检测器的准确性和速度的负面影响,并建立了端到端的实时速度基准。原创 2023-11-01 22:02:23 · 1152 阅读 · 1 评论 -
AFPN:用于目标检测的渐近特征金字塔网络
在目标检测任务中, 多尺度特征在编码具有尺度方差的 目标方面具有重要意义。多尺度特征提取的一种常见策略是采用经 典的自上而下和自下而上的特征金字塔网络。然而, 这些方法存在 特征信息丢失或退化的问题, 削弱了非相邻层次的融合效果。本文 提出了一种支持非相邻层次直接交互的渐近特征金字塔网络 (AFPN)。AFPN首先融合两个相邻的低级特征, 然后逐渐将高级特 征纳入融合过程。通过这种方式, 可以避免不相邻层次之间更大的 语义鸿沟。原创 2023-10-14 10:26:47 · 2189 阅读 · 1 评论 -
大选择核网络在遥感目标检测中的应用
遥感目标检测【75】是计算机视觉的一个领域,专注于在航空图像中识别和定位感兴趣的物体,如车辆或飞机。近年来,一个主流趋势是生成准确符合被检测物体方向的边界框,而不是简单地在它们周围绘制水平框。因此,大量的研究集中在改进遥感目标检测中有向边界框的表示。这主要是通过开发专门的检测框架实现的,如RoI Transformer【12】、Oriented R-CNN【62】和R3Det【68】,以及有向框编码技术,如滑动顶点【64】和中点偏移框编码【62】。原创 2023-10-02 17:25:01 · 1062 阅读 · 2 评论 -
RepViT: 从ViT视角重新审视移动CNN
针对轻量级模型的研究一直是计算机视觉任务的重点,目标是实现卓越的模型性能,同时降低计算成本。这对于资源有限的移动设备尤为重要,使得视觉模型可以在边缘进行部署。在过去的十年中,研究人员主要关注轻量级卷积神经网络(CNNs)的设计,并取得了重大进展。提出了许多有效的设计原则,包括可分离卷积[20],倒残差瓶颈[43],通道洗牌[34,63],和结构重参数化[11],从而产生了代表性的模型,如MobileNets [19,20,43],ShuffleNets [34,63],和RepVGG [11]。原创 2023-09-16 18:49:59 · 1186 阅读 · 0 评论 -
SG-Former:具有进化Token重新分配的自引导Transformer
Transformer模型[49]起源于自然语言处理(NLP),最近在视觉学习中展示了最先进的性能。视觉Transformer(ViT)的开创性工作[10]引入了自注意力模块,并明确地建模了图像补丁之间的长程依赖性,从而克服了卷积中本地感受野的固有限制,提高了各种任务的表现[9,27,56,70,74,1]。尽管取得了巨大的成功,但自注意力的计算成本随着序列长度的增加而呈二次增长,这反过来又极大地限制了其在大规模输入上的应用。为了降低计算成本,ViT采用大步长补丁嵌入来减少序列长度。原创 2023-09-09 13:02:37 · 443 阅读 · 0 评论 -
SCConv:用于特征冗余的空间和通道重构卷积
代码链接:https://github.com/cheng-haha/ScConv论文链接:https://openaccess.thecvf.com/content/CVPR2023/papers/Li_SCConv_Spatial_and_Channel_Reconstruction_Convolution_for_Feature_Redundancy_CVPR_2023_paper.pdf。原创 2023-09-08 15:57:36 · 536 阅读 · 0 评论 -
边界框回归的魔法:揭秘精准高效的MPDIoU损失函数
边界框回归(BBR)已广泛应用于目标检测和实例分割,这是目标定位的重要步骤。然而,现有的大多数边界框回归损失函数在预测框与地面真相框具有相同长宽比但宽度和高度值完全不同的情况下无法优化。为了解决上述问题,我们充分探索了水平矩形的几何特征,并基于最小点距离提出了一种新颖的边界框相似性比较度量MPDIoU,该度量包含了现有损失函数中考虑的所有相关因素,即重叠或非重叠区域、中心点距离以及宽度和高度偏差,同时简化了计算过程。在此基础上,我们提出了基于MPDIoU的边界框回归损失函数LMPDIoUL。原创 2023-08-24 20:05:37 · 1127 阅读 · 1 评论 -
FastViT:一种使用结构重新参数化的快速混合视觉变换器
论文:https://arxiv.org/pdf/2303.14189v1.pdf代码链接:https://github.com/apple/ml-fastvit最近,Transformer和卷积设计的融合使得模型的准确性和效率得到了稳步提高。在这项工作中,我们引入了FastViT,这是一种混合视觉Transformer架构,实现了最新的延迟-准确率权衡。原创 2023-08-21 21:52:24 · 554 阅读 · 0 评论 -
DERT:End-to-End Object Detection with Transformers
本文提出一种新方法,将目标检测视为直接的集合预测问题。该方法简化了检测管道,有效地消除了对许多手工设计组件的需要,如非最大抑制程序或锚点生成,这些组件显式编码了我们关于任务的先验知识。新框架称为检测TRansformer或DETR,其主要成分是基于集合的全局损失,通过二分图匹配强制进行独特的预测,以及TRansformer编码器-解码器架构。给定一个固定的小集合的学习对象查询,DETR对对象和全局图像上下文的关系进行推理,以直接并行输出最终的预测集。原创 2023-08-11 21:30:26 · 2408 阅读 · 0 评论 -
YOLOv5模型压缩方法:综述
目标检测作为一个基本问题,多年来一直是一个活跃的研究领域。目标检测的主要目标是在给定的图像中从不同类别中识别和定位感兴趣的目标。目标检测是许多其他高级计算机视觉任务的基础[1],从语义分割[2]到目标跟踪[3]到活动识别[4]。近年来,基于深度学习的方法如卷积神经网络(cnn)在目标检测任务中取得了最先进的性能。由于计算能力和前沿算法的进步,目标检测变得更加准确,从而实现了广泛的现实世界应用。与经典的目标检测方法相比,使用cnn缓解了目标检测中的特征提取、分类和定位问题[5,6,7,8,9,10]。原创 2023-08-04 06:47:40 · 4366 阅读 · 0 评论