YOLO魔改:医学微小目标
文章平均质量分 94
YOLO算法系列,小目标检测增强
Debroon
喜欢研究思维策略、动力策略、AI应用、各种新变化,让自己越来越自由。
展开
-
SvANet:微小医学目标分割网络,增强早期疾病检测
最左侧展示了不同医学成像方式的小医疗对象的图片,包括全幅成像(WSI)、眼科成像(Oph)、皮肤科成像(Derm)、结肠镜检查(COL)、磁共振成像(MRI)、计算机断层扫描(CT)、和显微镜成像(MSCP)。整体来看,这个架构通过结合传统的卷积神经网络和最新的视觉变换器技术,旨在更有效地检测和分割医学图像中的小型对象,特别是在复杂和信息丰富的医疗图像处理场景中。与传统的全局注意力机制相比,MCAttn在特定的池化层中实施,直接增强了小对象特征的识别率,减少了背景噪声的干扰。原创 2024-07-12 14:44:24 · 1137 阅读 · 0 评论 -
Mamba-YOLO:Mamba 主干网络适合处理更复杂的数据和场景 + Apache-2.0 开源可商用
在Mamba YOLO的架构中,核心组件如SS2D结构、ODSSBlock、Local Spatial Block (LS Block)、和Residual Gated Block (RG Block)与高级组成部分如ODMamba Backbone、Simple Stem、ODSSBlocks、Vision Clue Merge、PAFPN和Head之间存在直接的层级和功能关系。通常,Head会设置不同尺度的检测层,以处理从小到大的各种对象,确保模型可以广泛地适应不同的目标尺寸和场景。原创 2024-06-20 09:35:25 · 3009 阅读 · 0 评论 -
YOLOX: 无锚点机制 + 解耦头部设计 + 动态标签分配策略的高性能目标检测器 + Apache-2.0 开源可商用
当将DarkNet53的深度特征提取能力与CSPNet的高效计算方式结合时,CSPDarkNet53能够在确保深度和复杂特征提取的同时,保持网络的运行效率。这种先进的策略通过确保使用最相关的预测进行训练,优化了地面真实和预测对象之间的匹配,提高了精度。这种结构优化的目标是在不牺牲性能的情况下提供更高的速度和效率,使得CSPDarkNet53成为计算资源受限环境中的理想选择。这种设计的变化主要是为了改善模型的性能,通过分离任务以减少不同任务间的干扰,提高模型在分类和定位准确性上的效率。原创 2024-06-14 17:31:18 · 1324 阅读 · 0 评论 -
LW-DETR:实时目标检测的Transformer, Apache-2.0 开源可商用,论文实验超 YOLOv8
这个可以比喻为你有一个名单(编码器),上面记录了所有宾客的特征。:窗口注意力专注于图像的局部区域以减少计算负担,而全局注意力覆盖整个图像,确保广泛的环境因素被考虑,两者交替使用以优化性能。:这就像你在与多个宾客交谈时,能够根据对话中的重要信息(如他们提到的名字或他们提到的其他宾客)来迅速调整你的注意力焦点。每种大小的检测器都有其特定的配置,比如不同层数的编码器和不同数量的对象查询(用于确定图像中的对象)。:投影器是连接编码器和解码器的桥梁,它处理由编码器生成的特征图,为解码器提供必要的输入信息。原创 2024-06-06 13:04:45 · 1829 阅读 · 0 评论 -
YOLOv10:去掉NMS,全面的效率-准确性设计
双重标签分配策略和一致的匹配度量就像教练在训练中使用不同的训练方法,并在比赛中选择最佳策略,确保球员能够在关键时刻做出最佳决策,同时提高训练效率和比赛表现。双重标签分配策略通过结合一对多和一对一的优点,提高了YOLO模型在交通监控系统中的训练效果和推理效率,使得系统能够在实时性和准确性之间达到更好的平衡。通过一致的匹配度量,双重标签分配策略在训练阶段提供丰富的监督信号,提高了模型的学习效果,并在推理阶段避免了NMS,提高了系统的实时性能。好举一个交通监控系统中的具体例子,说明各个组件在这个过程中做什么。原创 2024-05-27 17:03:02 · 2976 阅读 · 3 评论 -
【YOLO v5 v7 v8 v9小目标改进】辅助超推理SAHI:分而治之,解决高分辨率图像中小物体检测的问题
我们用这些模型在每个小块上找我们想要的小物体。这个方法可以用在任何需要找小物体的场景中,比如用监控摄像头监视一片区域,或者用无人机拍摄的大面积地图上寻找特定的小目标。但是,如果你将拼图分成几个部分,一块一块地完成,每一块拼好之后再把所有的小块合并起来,最终得到的将是一幅完整的图画。这些切片相对于原图中的小物体具有更大的像素面积,使得小物体在网络训练时变得更明显,从而提高了模型对小物体的检测性能。:当我们在所有小块中都找完后,就把找到的小物体的位置标记起来,再放回到原来的大照片中相应的位置。原创 2024-03-06 23:49:50 · 1451 阅读 · 2 评论 -
【YOLO v5 v7 v8 v9小目标改进】RevCol:解决深度学习信息从低层(输入)传递至高层(输出)的过程中,信息会逐层丢失问题
传统的深度学习模型(遵循信息瓶颈原则)在层与层之间传递信息时,会逐步压缩与目标无关的信息。在深度学习中,有一个常见的问题:当我们训练模型识别图片或者处理信息时,模型往往只关注于对当前任务有用的信息,而忽略其他可能对将来任务有用的信息。这就像是在读书时,只记住了考试要考的知识点,但对书中其他有趣或有用的内容视而不见。虽然短期内这样做可以帮助我们通过考试,但长期来看,我们可能会错过很多重要的知识。类于交通系统中的立交桥设计。在繁忙的城市中,不同方向的车辆流需要高效地交织而不互相干扰。原创 2024-03-06 22:42:33 · 1449 阅读 · 0 评论 -
【YOLO v5 v7 v8 v9小目标改进】AFPN 渐进式特征金字塔网络:解决多尺度特征融合中,信息在传递过程丢失
AFPN(渐进式特征金字塔网络)是在特征金字塔和特征融合模块基础上的进一步创新和优化。AFPN不仅采用了特征金字塔的。原创 2024-03-06 17:15:24 · 2293 阅读 · 0 评论 -
【YOLO v5 v7 v8 v9小目标改进】HTA:自注意力 + 通道注意力 + 重叠交叉注意力,提高细节识别、颜色表达、边缘清晰度
研究者发现,虽然最新的一种叫做Swin Transformer的技术在把模糊图片变清晰(即图像超分辨率)方面做得很好,但是它具体是怎么做到的,特别是它为什么比之前的技术(比如CNN)更好,还不是很清楚。扩散指数(DI)反映了参与的像素范围。顶部的图像显示了SwinIR在Urban100数据集中的三个图像中的中间特征,而底部的图像则展示了我们的HAT网络在相同图像中的中间特征。因此,研究者想要设计一个新的网络,能够更好地利用图片信息,同时避免之前技术中存在的一些问题,比如在图片的一些部分出现不自然的效果。原创 2024-03-06 15:01:32 · 2132 阅读 · 0 评论 -
【YOLO v5 v7 v8 v9小目标改进】DWRSeg:优化的多尺度处理,传统的深度学习模型可能在不同尺度的特征提取上存在冗余
这种方法更有效,因为它不是盲目地尝试用一把万能钥匙去打开所有锁,而是先根据锁的类型和大小选择合适的钥匙,然后再进行精细的调整,这样就大大提高了打开锁的效率和成功率。为了解决这个问题,本文提出了一种新的方法,可以想象为先用一组不同的小钥匙(区域残差化)去粗略匹配不同类型的锁,这样可以确定哪些锁是容易打开的,哪些是难以打开的。这里的“锁”比喻了需要识别和分割的复杂特征,而“钥匙的齿部伸缩”则类似于深度学习中的深度扩张卷积操作,旨在捕捉不同尺度的特征。起始模块作为网络的入口,处理初始图像数据;原创 2024-03-05 19:07:08 · 1259 阅读 · 0 评论 -
【YOLO v5 v7 v8 v9小目标改进】新CNN架构 InceptionNeXt:怎么让大卷积核既好用又快
MetaNeXt提供了改进空间信息处理效率的初始框架,Inception深度卷积进一步针对深度卷积的效率进行了优化,最后,InceptionNeXt模型整合了这些优化,构建出既高效又性能卓越的CNN模型。通过这种方法论的分解,我们不仅解决了传统深度卷积操作效率低下的问题,还提出了一种新的CNN架构,即InceptionNeXt,它通过简化和优化卷积操作来提高模型的整体性能和效率。具体来说,对于进行处理的通道,1/3的通道使用3×3的核心,1/3的通道使用1×k的核心,剩余1/3的通道使用k×1的核心。原创 2024-03-02 10:46:10 · 1400 阅读 · 0 评论 -
【YOLO v5 v7 v8 v9小目标改进】ContextAggregation:综合CNN、Transformer、MLP-Mixer 实现上下文增强和特征细化网络
CONTAINER架构通过这种创新的方式结合了CNN的高效局部特征提取能力和Transformer的全局信息处理能力,同时通过多头上下文聚合机制实现了这两种能力的有机融合,从而在图像识别和分析任务中取得更好的性能。它们通过通用的上下文聚合框架,融合了特定架构的优势,实现了一个既能高效处理长距离交互也能快速提取局部特征的神经网络模块,同时引入多头上下文聚合机制增强了模型的灵活性和处理能力。这意味着在聚合上下文信息时,当前特征的权重很低,这可能是由于残差连接的存在,减少了包含源特征的需要。原创 2024-03-02 09:56:40 · 1603 阅读 · 0 评论 -
【YOLO v5 v7 v8 v9小目标改进】ODConv:在卷积核所有维度(数量、空间、输入、输出)上应用注意力机制来优化传统动态卷积
通过这种方式,ODConv能够为每个输入图像动态地优化其卷积操作,从而在不同的图像分类任务中实现更高的准确性,同时减少了需要的额外参数数量,因为它甚至可以使用单个卷积核与现有的多卷积核动态卷积方法竞争或超越它们的性能。具体来说,它在任何给定的卷积层中,不仅仅学习一个卷积核,而是学习一组卷积核,每个卷积核都针对卷积核空间的一个特定维度(如卷积核的空间尺寸、输入通道数、输出通道数和卷积核数量)。因此,即使是使用单个卷积核的ODConv也能与现有的具有多个卷积核的动态卷积对手竞争或胜出,大大减少了额外的参数。原创 2024-03-01 21:52:02 · 2122 阅读 · 0 评论 -
【YOLO v5 v7 v8 v9小目标改进】中心化特征金字塔(CFP) = 特征金字塔 + 显式视觉中心(EVC)+ 全局集中调节(GCR)
最后,为了让计算机更准确地识别出照片中的对象,CFP采用了一种特别的计算方法(MLP),这种方法帮助计算机更好地理解照片中的信息,就像提高它的“智商”一样,让它更聪明地识别出各种对象。然而,使用传统的卷积神经网络(CNN)作为基础,尽管有了特征金字塔的帮助,但还是有一些局限性,比如它们难以捕捉到图片中的全局信息,比如整个场景的布局,或者是图片角落里的细节。CFP就是一种让计算机在查看照片时,能够处理不同大小的对象,同时关注到全局和局部的重要细节,最终更准确地识别出照片中的对象的技术。原创 2024-03-01 20:47:16 · 1876 阅读 · 1 评论 -
【YOLO v5 v7 v8 v9小目标改进】Non-local 注意力实现非局部神经网络,解决长空间和时间数据依赖问题
增加更多非局部块的实验结果表明,在网络中添加更多的非局部块可以进一步提高性能,特别是当这些块被添加到不同的网络层级时,它们可以执行长距离多跳通信,帮助模型更有效地捕捉复杂的时空依赖关系。将单个非局部块添加到ResNet的不同阶段的结果表明,无论是在网络的早期阶段还是后期阶段添加非局部块,都能带来性能的提升,但是添加到空间尺寸较小的res5阶段时提升稍小。通过这个结构,非局部块能够在每个位置捕捉全局依赖,不仅包括空间位置之间的关系,还包括跨时间的动态变化,这对于理解复杂的视频序列至关重要。原创 2024-03-01 14:55:43 · 1398 阅读 · 0 评论 -
【YOLO v5 v7 v8 v9小目标改进】RFB:组合不同大小的卷积核和扩张卷积来模拟人类视觉感受野的多尺度特性
高性能的目标检测模型往往需要复杂的网络结构来提高准确率,但这样做的代价是计算成本高和推理速度慢,这对于需要实时处理的应用场景(如自动驾驶车辆的物体识别)是不可接受的。当你在街道上,专注于识别远处的交通标志时,你的视觉系统会自然地调整,使得感受野在那个特定区域变得更大,以便捕获更多的上下文信息,即使标志本身较小也能被准确识别。同时,对于图像中心附近的对象(如近处的行人),感受野则会相对较小,以捕获更细致的特征,如脸部特征或衣物纹理,从而提高对行人的识别准确性。原创 2024-02-29 19:36:38 · 2631 阅读 · 1 评论 -
【YOLO v5 v7 v8 v9小目标改进】BiFormer:从局部空间特征到高效的全局空间特征
这是因为(Transformer)变压器模型依赖于注意力机制,该机制需要计算和存储所有输入数据点之间的相互作用,导致随着输入大小的增加,所需的计算资源和内存急剧增加。这与在变压器模型中引入双层路由注意力机制的目的是一致的:先大范围筛选出可能相关的区域,再在这些区域中寻找最具体、最相关的信息。举个例子,在一个大型图书馆里寻找关于“人工智能”的书籍,这个图书馆有成千上万的书籍,分布在不同的区域和书架上。对于两个场景,它展示了原始图像并标出了两个查询位置,模型关注的相应区域(路由区域),以及最终的注意力热图。原创 2024-02-29 16:13:56 · 2158 阅读 · 1 评论 -
【YOLO v5 v7 v8 v9 小目标改进】SPD-Conv:解决步长卷积和池化层导致的细粒度信息丢失
在添加 SPD-Conv 代码"""这个模块实现了空间到深度的操作,它重新排列空间数据块到深度维度,通过块大小增加通道数并减少空间维度。在卷积神经网络中常用此方法保持下采样图像的高分辨率信息。""""""初始化 SpaceToDepth 模块。参数:block_size (int): 每个块的大小。它定义了空间维度的下采样因子。输出通道的数量将增加 block_size**2 倍。"""self.block_size = block_size # 块大小"""原创 2024-02-23 17:35:17 · 6392 阅读 · 26 评论 -
【目标检测新SOTA!v7 v4作者新作!】YOLO v9 思路设计 + 全流程优化 + 手把手训练自己数据
YOLOv9的PGI技术包括辅助可逆分支和多级辅助信息,这些设计有助于在网络的深层中保留更多的信息,生成更可靠的梯度,从而在训练过程中确保了更准确的目标与输入之间的关联。例如,如果在交通监控系统中部署了YOLOv9,当监控画面中有车辆通过时,即使在网络较深的层次上,YOLOv9也能有效地保留车辆的关键特征信息,如车辆的轮廓、颜色和标志等。可逆网络架构直接针对信息丢失问题提供了解决方案,而PGI中的辅助可逆分支也采用了类似的思想,但在一个辅助的分支上实现,以提高梯度的可靠性和信息的保存。原创 2024-02-22 15:00:43 · 7565 阅读 · 2 评论 -
【YOLO v5 v7 v8 v9小目标改进】高斯函数 Wasserstein 距离损失:新的相似度度量方法,解决微小物体的IoU对齐
尽管这个位置偏差导致基于IoU的方法将检测框判定为低质量匹配,但通过计算这两个高斯分布之间的NWD,我们可以得出这两个框实际上是非常相似的,因为Wasserstein距离能够捕捉到它们作为分布的整体形状和位置的相似性,而不仅仅是它们的直接重叠区域。例如,对于一个6×6像素的微小人物,原本与真实框有一定重叠的检测框,仅因轻微的位置移动就可能从IoU为0.53下降到0.06,这样的变化会误导模型认为检测框与真实框不匹配,从而将其判定为负样本,导致正确的检测被错误地抑制。原创 2024-02-24 15:20:22 · 2063 阅读 · 6 评论 -
YOLO系列:YOLO v1-v8、YOLOx、PP-YOLOE、DAMO-YOLO、YOLOX-PAI 设计思路
最强的地方就在于,即使在那些看起来没有我们要找的物体的方格中,它也能把这些方格中的信息提取出来,然后和其他方格中的信息一起,形成一个更“全面”的图片。YOLO v1假设物体的位置的中心就在某一个格子的中心点,但在实际情况中,每一个物体的中心的位置是任意的,可以在任何地方,不一定非要在格子的中心。有的人跳了1米,有的人跳了6米,甚至有人跳到了8米。那样我们就可以看清楚他们的样子,甚至还能看清楚它们身上详细的毛发,它们的眼睛的颜色,或者它们的皮肤的纹理等等详细部分,就像我们用了放大镜一样。原创 2023-07-20 18:10:53 · 4442 阅读 · 0 评论 -
【医学图像检测】Med-YOLO:3D + 医学影像 + 检测框架
为了比较,研究者还使用nnDetection框架在相同的数据集上进行了训练,这是另一个用于3D NIfTI图像的通用医学成像对象检测框架。这些立方体的边长是可配置的,但在测试中,每侧 350 体素是常见的选择。:MedYOLO在训练上几乎完全遵循YOLOv5的方法,使用了几乎相同的超参数(用于指导训练过程的参数),唯一的区别是增加了一些用于数据增强的超参数。MedYOLO 是 YOLOv5 为 3D 医学图像分析的复杂改编,其在网络架构、数据处理和预处理方面进行了调整,以适应医学扫描的独特特性。原创 2024-01-19 17:30:13 · 4699 阅读 · 30 评论 -
YOLO 全面回顾:从最初的YOLOv1到最新的YOLOv8、YOLO-NAS,以及整合了 Transformers 的 YOLO
YOLOv1是一个革命性的对象检测模型,它以其速度和效率在计算机视觉领域引起了轰动。这种方法允许YOLOv2根据网格单元的位置动态调整边界框的尺寸,同时通过锚点框处理各种形状和大小的对象,在提高模型的灵活性和准确性方面是很重要的。通过这些改进,YOLOv2不仅在处理各种尺寸和比例的对象方面更加灵活,而且还提高了整体的检测精度,尤其是在复杂场景和高分辨率图像中的表现。在预测时,每个网格单元可以使用这些锚点框来预测对象的位置和尺寸,而每个锚点框都有一个预测值集合,包括边界框的中心、宽度、高度和对象类别。原创 2024-01-28 13:16:43 · 1802 阅读 · 0 评论