CV计算机视觉
文章平均质量分 78
目标检测前言论文
MatpyMaster
有问题夹魏,评论及私聊不回!
展开
-
理解分组卷积
即在外围加了一圈 0。如果group是2,那么对应要将输入的32个通道分成2个16的通道,将输出的48个通道分成2个24的通道。对输出的2个24的通道,第一个24通道与输入的第一个16通道进行全卷积,第二个24通道与输入的第二个16通道进行全卷积。当 groups 为 2的时候,相当于将输入分为两组,并排放置两层,每层看到一半的输入通道并产生一半的输出通道,并且两者都是串联在一起的。极端情况下,输入输出通道数相同,比如为24,group大小也为24,那么每个输出卷积核,只与输入的对应的通道进行卷积。原创 2024-05-18 17:48:50 · 808 阅读 · 0 评论 -
YOLOv9代码详细介绍(附源码和权重)
本文将介绍YOLOv9的项目获取、项目目录以及单独文件分析。YOLOv9 的进步深深扎根于解决深度神经网络中信息丢失所带来的挑战。信息瓶颈原理和可逆函数的创新使用是其设计的核心,可确保 YOLOv9 保持高效率和高精度。原创 2024-05-02 07:42:56 · 145 阅读 · 0 评论 -
YOLOv9初探秘,含源码及详解~
它采用了新的骨干网络、检测头和损失函数,使得模型在保持较高准确率的同时,提高了推理速度。YOLOv9注重轻量级模型的设计和优化,使得模型在保持较高性能的同时,具有更小的体积和更快的推理速度。这意味着在相同的参数量下,YOLOv9能够提取更多的特征信息,从而提高了目标检测的准确率。YOLOv9在YOLOv8的基础上进行了进一步的改进和优化,使得模型在性能上有了显著的提升。这使得模型能够适应不同的应用场景和需求。通过引入新的骨干网络和检测头,YOLOv8能够提取更丰富的特征信息,从而提高了目标检测的准确率。原创 2024-03-05 16:52:44 · 1606 阅读 · 0 评论 -
YOLOv9来了,YOLOv5和YOLOv8还香不香?
总的来说,截止到写作本文的时间,与以前的YOLO变种相比,YOLOv5和YOLOv8都在速度和准确性方面表现出色。PAN-FPN:双流的FPN,必须香,也必须快,但是量化还是有些需要图优化才可以达到最优的性能,比如cat前后的scale优化等等,这里除了上采样、CBS卷积模块,最为主要的还有C3模块;Backbone:使用的依旧是CSP的思想,不过YOLOv5中的C3模块被替换成了C2f模块,实现了进一步的轻量化,同时YOLOv8依旧使用了YOLOv5等架构中使用的SPPF模块;原创 2024-03-05 16:50:59 · 2676 阅读 · 0 评论 -
[DIOR | DIOR-R]旋转目标检测数据集——基于YOLOv8obb,map50已达81.8%
这20个对象类是飞机、机场、棒球场、篮球场、桥梁、烟囱、水坝、高速公路服务区、高速公路收费站、港口、高尔夫球场、地面田径场、天桥、船舶、体育场、储罐、网球场、火车站、车辆和风磨。解压后,标签内的Horizontal Bounding Boxes为水平框,Oriented Bounding Boxes为旋转框,如下所示为旋转框示例,可以看到相关的信息,如坐标、角度、标签等信息。数据集是在DIOR数据集的基础上,对目标实例重新标注边框,采用旋转框标注,这样避免了水平框的重叠问题。原创 2024-01-26 15:20:58 · 1611 阅读 · 3 评论 -
UCAS-AOD遥感旋转目标检测数据集——基于YOLOv8obb,map50已达96.7%
正例图像以P+数字序号命名,反例图像以N+数字序号命名,所有图像为PNG格式,尺寸为1280x659和1372x941。UCAS-AOD采用HBB(horizontal bounding box)的标注方法,图像的groundtruth采用txt格式保存,以图像的同名文档方式存储。遥感图像的分类依据是根据成像的介质不同来进行分类的。UCAS-AOD (Zhu et al.,2015)用于飞机和汽车的检测,包含飞机与汽车2类样本以及一定数量的反例样本(背景),总共包含2420幅图像和14596个实例。原创 2024-01-24 18:03:41 · 1285 阅读 · 6 评论 -
全网首发!Yolov8_obb旋转框训练、测试、推理手把手教学(DOTA1.0数据集map50已达80%)
其中,images/train和images/val放置原始图片文件,labels/train_original和labels/val_original分别放置原始的标签文件,labels/train和labels/val为空,然后运行步骤(3)的代码,运行结束转换后的标签会保存在labels/train和labels/val中,格式如下。(4)新建yolov8-obb.yaml,修改nc和scales,我使用的是yolov8n.(2)构建数据集,安装下面目录格式,其他test可为空,一定要对应。原创 2024-01-11 23:10:34 · 8102 阅读 · 72 评论 -
遥感图像介绍
2、检测头:特征精细化模块用于特征对齐;遥感图像的分类依据是根据成像的介质不同来进行分类的。船这类瘦长的目标,当角度发生较小的变化时,包围框的变化会非常剧烈。2、特征提取阶段:根据对象的形状信息和特征分布动态选择样本。3、颈部:累积特征金字塔,用来增强在各个尺度的语义信息。1、特征提取阶段:对于提取到的特征分配不同的重加权模块。3、设计新的损失函数,属于反向传播优化参数阶段。1、检测头:中心点提取,通过关键点来定位舰船中心。2、检测头:基于感受野的标签分配策略。1、特征提取阶段:学习凸包特征方法。原创 2024-01-04 19:11:29 · 444 阅读 · 0 评论 -
小目标检测研究
信号处理、通信仿真、算法设计、matlab appdesigner,gui设计、simulink仿真…希望能帮到你!原创 2024-01-02 21:09:46 · 433 阅读 · 0 评论 -
无人机视角下的目标检测研究进展
信号处理、通信仿真、算法设计、matlab appdesigner,gui设计、simulink仿真…希望能帮到你!原创 2023-12-29 17:08:17 · 642 阅读 · 0 评论 -
DOTA数据集切割处理——旋转框和水平框
这些图像分为15类,即飞机、船只、储罐、棒球场、网球场、篮球场、地面田径场、港口、桥梁、小型车辆、大型车辆、直升机、环岛、足球场和游泳池。包含images15749张,水平labelTxt-shuiping15749个,旋转标签labelTxt-xuanzhuan15749个。包含images5279张,水平标签labelTxt-shuiping5279个,旋转标签labelTxt-xuanzhuan5279个。包含images10494张,标签labels10494个。、通信仿真、算法设计、原创 2023-12-13 19:28:42 · 1839 阅读 · 2 评论 -
YOLOv8更换BiFPN并融合P2小目标检测层
FPN是一种用于处理多尺度信息的网络结构,通常与骨干网络(如ResNet或EfficientNet)结合使用,以生成不同分辨率的特征金字塔,从而提高对象检测和分割的性能。总的来说,BiFPN是一种改进的特征金字塔网络结构,通过双向连接、自适应特征调整和模块化设计,提高了对象检测和语义分割任务的性能,使得神经网络能够更好地理解和解释多尺度信息,从而在计算机视觉任务中发挥更大的作用。:BiFPN的引入通常能够显著提高对象检测和分割任务的性能,特别是对于小目标或复杂场景,其性能改进尤为显著。原创 2023-12-13 19:33:36 · 1404 阅读 · 0 评论 -
CV小目标识别——AITOD航空图像数据集(已处理)
标签有8类,分别是 ['airplane', 'bridge', 'storage-tank', 'ship', 'swimming-pool', 'vehicle', 'person', 'wind-mill']与现有的航拍图像目标检测数据集相比,AI-TOD中目标的平均尺寸约为12.8像素,远小于其他目标。需要下载以下两部分(第 1 部分:xView 训练集,第 2 部分:AI-TOD 的一部分)。2804张,共计28036张,都有标签,原始标签为json格式,处理后有。、通信仿真、算法设计、原创 2023-11-25 22:42:19 · 1811 阅读 · 0 评论 -
全局上下文网络(附代码)
注意到GCNet中使用的上下文特征计算和融合方法是从NLNet继承而来的,所提出的GCNet也可以被视为连接两种具有代表性的长距离依赖建模方法NLNet和SENet的产物,但很好地利用了它们各自的优势(GCNet在更好的上下文建模和信息融合方面与NLNet相同,同时与SENet一样轻量级)。对于每个查询位置,非局部网络首先计算查询位置与所有其他位置之间的成对关系以形成注意力图,然后通过与注意力图定义的权重的加权和来聚合所有位置的特征。这种简化的块比原始的非局部块需要显著更少的计算,但在几个重要的。原创 2023-11-08 18:59:34 · 158 阅读 · 0 评论 -
空间上下文金字塔
多尺度特征传播旨在从不同的主干阶段聚合视觉特征,该阶段给定一个输入特征金字塔 C = {Cl1, Cl2, ...},其中 Ci 表示阶段 i 的特征图,目标是在不同级别之间传播特征以产生增强的特征金字塔P = {Pl1 , Pl2 , ...},其中特征对下游任务信息量更大。核心思想是,如果像素的特征足够丰富,则不需要从其他空间位置聚合特征。在聚合不同层次的特征图后,特征金字塔仍然包含空间局部信息,因此引入了空间上下文金字塔(SCP),通过学习每个级别内的全局空间上下文来进一步增强特征。原创 2023-11-08 18:56:58 · 119 阅读 · 0 评论 -
特征融合和双路径注意模块
MRF由四个分支组成,分别使用1×1 Conv、3×3 Conv、5×5 Conv、7×7 Conv和平均池化来拓宽感受野。在通道注意力分支中,使用全局平均池化来聚合每个通道中的特征图。此外,设计了一个多层感知(MLP),它由两个全连接层和一个 ReLU 层组成,以计算每个通道特征的重要性权重。然后,使用 1 × 1 卷积层压缩特征图的通道。由于特征图将通过几个卷积层连续压缩,小物体的信息在深层会较少,背景噪声也会覆盖它。首先,在空间注意力分支中,使用 1 × 1 卷积来压缩通道,从而减少维度和计算。原创 2023-11-08 18:55:29 · 594 阅读 · 0 评论 -
上采样和下采样特征金字塔与跨层注意力模块
事实上,对对象的局部特征和非局部特征之间的关系进行建模相当于获得更丰富的对象细节信息,这显然有助于检测。然后,考虑到在特征图的每一层都获得的信息是不平衡的,整合并平衡所有层的所有特征图,以获得更平衡和更强的特征。因此,对于尺寸小于中间尺寸的特征图(Al),fresize表示上采样,对于尺寸大于中间尺寸的特征图,fresize表示下采样。为了获得更平衡和更强的特征,对每一层的特征进行跨层集成和平衡。然后,将具有纹理信息的合并浅层特征图下采样并再次与深度特征图合并,以获得具有丰富特征的多尺度特征图。原创 2023-11-08 18:54:11 · 214 阅读 · 0 评论 -
空间金字塔池化改进
RFB模块是在《ECCV2018:Receptive Field Block Net for Accurate and Fast Object Detection》一文中提出的,出发点是模拟人类视觉的感受野从而加强网络的特征提取能力,在结构上RFB借鉴了Inception的思想,主要是在Inception的基础上加入了空洞卷积,从而有效增大了感受野。相比原来的正常卷积操作,扩张卷积多了一个参数:dilation rate,指的是卷积核的点的间隔数量,比如常规的卷积操作dilatation rate为1。原创 2023-11-08 18:52:54 · 217 阅读 · 0 评论 -
通道注意力(SENet)和卷积注意力模块(CBAM)
作者称之为feature recalibration。✅ Squeeze由于卷积只是在一个局部空间内进行操作,U很难获得足够的信息来提取channel之间的关系,对于网络中前面的层这更严重,因为感受野比较小。Squeeze操作将一个channel上整个空间特征编码为一个。原创 2023-11-08 18:44:48 · 326 阅读 · 0 评论 -
跨尺度特征融合
首先,需要通过使用 1 × 1 卷积将 FA2、FA3、FA4、FA5 和 F′A6 的通道维度(即特征图的厚度)从 256 减少到 64,得到 FB2、FB3、FB4、FB5 和 FB6 的五个中间特征。这样,在后续预测的处理中,不仅使用了当前层的特征信息,还考虑了其他四层的上下文特征,使获得的新特征更加强大。然而,当将SE块完全嵌入到backbone中时,推理时间会在一定程度上增加,所以只是将SE块放在具有更多语义信息的深层,然后通过CSFF模块逐步将增强的全局特征传输到所有其他较浅的层。原创 2023-11-08 18:43:06 · 413 阅读 · 0 评论 -
多尺度变形注意力模块和多级特征聚合模块
3️⃣C15 -C25 沿通道轴连接以获得具有多尺度变形感受野的新特征图,注意力图 A 是通过在这个新连接的特征图上应用 3 × 3 卷积层和 sigmoid 激活函数生成的。通过这种方式,MSDAM从具有大的多尺度可变形感受野的特征图中生成注意力图,从而可以更好地拟合各种形状和大小的遥感对象,并为遥感图像生成更精确的注意力图。(2)遥感图像中的物体实例具有变形和大尺度变化的特征,而具有固定形状和单尺度感受野的特征图C5很难很好地拟合这些物体并预测出精确的遥感图像注意力图。相应生成的特征图表示为于C05。原创 2023-11-08 18:41:15 · 424 阅读 · 0 评论 -
目标检测扩张卷积
通过反卷积对层23的输出特征图进行上采样。上采样的特征图被route layer带到层25。同时,route layer将层16的输出特征图带到层25。然后是集成的特征图后面时两个层的卷积核大小为3 × 3和1 × 1。除最后一层外的所有卷积层依次进行批处理归一化(BN)层和ReLU层。将扩张卷积的步长设置为2。因此,输出特征图的大小是层6的大小的一半。然后,输出的特征图被route layer带到层25。为了在不损失小物体检测性能的情况下提高大物体检测性能,需要在引入精细特征的同时扩大感受野(第6层)。原创 2023-11-08 18:40:18 · 36 阅读 · 0 评论 -
改进的yolov5
为证明BottleNeckCSP 的局限性,通过修改信息路径,引入了一种新的称为 N-CSP 的功能块,减少主干中N-CSP块的数量,调整网络参数,提高计算速度。该模块结合局部和全局特征来最大化特征图的表达能力,扩展了骨干网络的感受野,并将最重要的上下文特征分离为大小目标检测。,导致特征信息丢失。因此,该模块提高了网络准确定位目标的学习能力,特别是小对象,同时以最小的计算成本增加保持快速检测速度。,一个在FPN的自顶向下路径中,另一个在PANet的自底向上路径中,用于集成不相邻和多层次特征。原创 2023-11-06 13:51:13 · 939 阅读 · 0 评论 -
卷积和反卷积的计算公式
实现2倍上采样,需要: stride=2, kernel_size=2*padding+2。d=1时表示普通的卷积操作。因此,卷积核通常为奇数,比较常用的组合有:kenrel_size=1, padding=1, stride=1和kernel_size=5, padding=2, stride=1。dilated conv可以在不增加卷积核大小的情况下增大感受野,同时不增加额外开销,在多个扩张卷积逐次堆叠的情况下尤其有效。常用组合为:stride=2, kernel=3, padding=1。原创 2023-11-06 13:48:52 · 100 阅读 · 0 评论 -
CV中的多尺度问题
TridentNet 结构主要包括3个完全一样的分支,唯一不同的只是膨胀卷积的膨胀率。如上图,从上到下膨胀率分别为1,2,3,分别检测小,中,大的目标,且三个分支共享权值。采用了单一图像作为输入,且使用级联多分支学习输入图像的不同尺度的目标的特征(单输入+级联多分支);采用了单一图像作为输入,且使用并行多分支学习输入图像的不同尺度的目标的特征(单输入+并行多分支);采用了图像金字塔构造多尺度特征,然后用单分支网络学习更深层特征(多输入+单分支);为了解决目标检测中的多尺度问题,不同的方法采用的思想不同。原创 2023-11-06 13:48:00 · 42 阅读 · 0 评论 -
DetectoRS:使用递归特征金字塔和可切换的空洞卷积检测目标
注:论文原文出自DetectoRS: Detecting Objects with Recursive Feature Pyramid and Switchable Atrous Convolution本文仅用于学术分享,如有侵权,请联系后台作删文处理。:设Bi表示自底向上的backbone的第i个阶段,Fi表示自顶向下的第i个FPN操作。, S},其中S为阶段数。上图显示了 SAC 的整体架构,它具有三个主要组件:在 SAC 组件之前和之后附加的两个全局上下文模块。原创 2023-11-06 13:46:32 · 136 阅读 · 0 评论 -
注意力机制和自注意力机制的区别
而自注意力机制的查询和键则都是来自于同一组的元素,例如,在Encoder-Decoder模型中,查询和键都是Encoder中的元素,即查询和键都是中文特征,相互之间做注意力汇聚。其中Query指的是自主提示,即主观意识的特征向量,Key指的是非自主提示,即物体的突出特征信息向量,Value则是代表物体本身的特征向量。由于人每一时刻接受的信息都是庞大且复杂,远远超过人脑的处理能力,因此人在处理信息的时候,会将注意力放在需要关注的信息上,对于其他无关的外部信息进行过滤,这种处理方式被称为注意力机制。原创 2023-11-06 13:45:30 · 489 阅读 · 0 评论 -
特征融合(五):BiFPN-双向特征金字塔网络
在融合过程中,之前的一些模型方法没有考虑到各级特征对融合后特征的共享度问题,即之前模型认为各级特征的贡献度相同,而本文作者认为它们的分辨率不同,其对融合后特征的贡献度不同,因此在特征融合阶段引入了weight。图2(a) 是传统FPN,图2(b)是PANet,图2(c)是利用网络自动搜索的方式生成的不规则特征融合模块,且这个模块可以重复叠加使用【即堆叠同样的模块,不停地使用相同的结构融合多层特征】。:浅层特征分辨率更高,包含更多位置、细节信息,但是由于经过的卷积更少,其语义性更低,噪声更多。原创 2023-11-06 13:44:01 · 2596 阅读 · 2 评论 -
特征融合(四):ASFF-自适应空间特征融合
对于需要upsample的层,比如想得到ASFF3,需要将level1调整至和level3尺寸一致,采用的方式是先通过1×1卷积调整到与level3通道数一致,再用插值的方式resize到相同大小;而对于需要downsample的层,比如想得到ASFF1,此时对于level2到level1只需要用一个3×3,stride=2的卷积就可以了,如果是level3到level1则需要在3×3卷积的基础上再加一个stride=2的maxpooling,这样就能调整level3和level1尺寸一致。原创 2023-11-06 13:42:53 · 1822 阅读 · 0 评论 -
特征融合(三):MLFPN-M2det多级特征金字塔网络
每个TUM的输出共同构成了multi-level&multi-scale特征,前面的TUM提供low level feature,后面的TUM提供high level feature。✅其次,堆叠多个TUM和FFMv2,每个TUM可以产生多个不同scale的feature map,每个FFMv2融合base feature和上一个TUM的输出,并给到下一个TUM作为输入(更高level)。:浅层特征分辨率更高,包含更多位置、细节信息,但是由于经过的卷积更少,其语义性更低,噪声更多。原创 2023-11-06 13:41:51 · 292 阅读 · 0 评论 -
特征融合(二):PANet-路径聚合网络
Bottom-up Path Augemtation的详细结构如下图所示,经过一个尺寸为,步长为的卷积之后,特征图尺寸减小为原来的一半然后和这个特征图做add操作,得到的结果再经过一个卷积核尺寸为,的卷积层得到。RPN网络获得的每个ROI都要分别和特征层做ROI Align操作,这样个ROI就提取到4个不同的特征图,然后将4个不同的特征图融合在一起就得到最终的特征,后续的分类和回归都是基于此最终的特征进行。:浅层特征分辨率更高,包含更多位置、细节信息,但是由于经过的卷积更少,其语义性更低,噪声更多。原创 2023-11-06 13:39:48 · 439 阅读 · 0 评论 -
特征融合(一):FPN-特征金字塔网络
高语义特征经过上采样后,其长宽与对应的浅层特征相同,而通道数固定为256,因此需要对浅层特征C2至C4进行1×1卷积使其通道数变为256,然后两者进行逐元素相加得到P4、P3与P2。C1代表了ResNet的前几个卷积与池化层,而C2至C5分别为不同的ResNet卷积组,这些卷积组包含了多个Bottleneck结构,组内的特征图大小相同,组间大小递减。:在得到相加后的特征后,利用3×3卷积对生成的P2至P4再进行融合,目的是消除上采样过程带来的重叠效应,以生成最终的特征图。原创 2023-11-06 13:38:22 · 434 阅读 · 0 评论 -
动态头:用注意力统一目标检测头
如果将主干的输出(即检测头的输入)视为维度水平×空间×通道的三维张量,发现这样的统一头可以被视为注意力学习问题。2️⃣空间感知注意力:基于融合特征的空间软件注意力模块来关注在空间位置和特征级别之间一致存在的判别区域。任何种类的骨干网络都可以用于提取特征金字塔,将其进一步调整到相同的尺度,形成三维张量,然后用作动态头的输入。它指导不同的特征通道根据对象的不同卷积核响应分别支持不同的任务(例如,分类、框回归和中心/关键点学习)。3️⃣任务感知注意力:动态切换功能的开启和关闭通道,以支持不同的任务。原创 2023-11-06 13:37:31 · 214 阅读 · 0 评论 -
Swin Transformer V2:扩展容量和分辨率
Swin Transformer V2使用的技术通常为扩大视觉模型,但它没有像 NLP语言模型那样被广泛探索,部分原因在于训练和应用方面,存在以下困难:1)视觉模型经常面临大规模不样本不均衡的问题;的84.0%top-1准确率COCO 对象检测的 63.1/54.4 box/mask mAP,ADE20K 语义分割的 59.9 mIoU, Kinetics-400 视频动作分类的 top-1 准确率为 86.8%。它非常类似于分类,但添加了定位的元素,它可以确定图像中的特定对象所在的位置。原创 2023-11-06 13:34:53 · 220 阅读 · 0 评论