- 博客(749)
- 收藏
- 关注
原创 Yolo11改进策略:注意力改进|VOLO,视觉识别中的视觉展望器|即插即用|附代码+改进方法
本文参考的是《VOLO:视觉识别中的视觉展望器》一文,该论文主要讨论了视觉识别领域中卷积神经网络(CNNs)与视觉转换器(ViTs)的性能对比,并提出了一个新的模型架构——Vision Outlooker(VOLO)。VOLO通过引入一种新颖的前景注意力机制(Outlook Attention),在ImageNet分类任务上实现了卓越的性能,且能够很好地迁移到下游任务,如语义分割。
2024-11-12 22:30:47
1005
原创 YoloV10改进策略:注意力改进|VOLO,视觉识别中的视觉展望器|即插即用|附代码+改进方法
本文参考的是《VOLO:视觉识别中的视觉展望器》一文,该论文主要讨论了视觉识别领域中卷积神经网络(CNNs)与视觉转换器(ViTs)的性能对比,并提出了一个新的模型架构——Vision Outlooker(VOLO)。VOLO通过引入一种新颖的前景注意力机制(Outlook Attention),在ImageNet分类任务上实现了卓越的性能,且能够很好地迁移到下游任务,如语义分割。
2024-11-12 22:28:56
568
原创 VOLO:视觉识别中的视觉展望器
视觉识别领域多年来一直被卷积神经网络(CNNs)所主导。尽管最近流行的视觉转换器(ViTs)在ImageNet分类任务中展示了基于自注意力模型的巨大潜力,但如果不提供额外数据,其性能仍然落后于最新的最优卷积神经网络(SOTA CNNs)。在本文中,我们试图缩小性能差距,并证明基于注意力的模型确实能够超越卷积神经网络。我们发现,限制ViTs在ImageNet分类任务中性能的一个主要因素是它们将精细特征编码到标记表示中的效率较低。
2024-11-11 22:21:35
827
原创 YoloV8改进策略:注意力改进|VOLO,视觉识别中的视觉展望器|即插即用|附代码+改进方法
视觉识别领域多年来一直被卷积神经网络(CNNs)所主导。尽管最近流行的视觉转换器(ViTs)在ImageNet分类任务中展示了基于自注意力模型的巨大潜力,但如果不提供额外数据,其性能仍然落后于最新的最优卷积神经网络(SOTA CNNs)。在本文中,我们试图缩小性能差距,并证明基于注意力的模型确实能够超越卷积神经网络。我们发现,限制ViTs在ImageNet分类任务中性能的一个主要因素是它们将精细特征编码到标记表示中的效率较低。
2024-11-11 20:51:42
1022
原创 YoloV10改进策略:Block改进|EPSANet,卷积神经网络上的高效金字塔挤压注意力块|即插即用|代码+改进方法
通过百度网盘分享的文件:YoloV10改进策略:Block改进EPSANet,卷积神经网络上的...链接:https://pan.baidu.com/s/1KfWnnfhHdEmg4VVU9Eo_Wg
2024-11-11 06:36:52
166
原创 YoloV10改进策略:注意力改进|EPSANet,卷积神经网络上的高效金字塔挤压注意力块|即插即用|代码+改进方法
论文介绍本文介绍的论文是“EPSANet:卷积神经网络上的高效金字塔挤压注意力块”,该论文提出了一种新颖、轻量且有效的注意力方法,即金字塔挤压注意力(PSA)模块。论文通过替换ResNet瓶颈块中的3×33 \times 33×3卷积为PSA模块,获得了一种名为高效金字塔挤压注意力(EPSA)的新型表示块。EPSA块能够轻松地作为即插即用组件添加到已建立的主干网络中,并能显著提升模型性能。基于这些EPSA块,论文开发了一种简单且高效的主干架构,即EPSANet,该架构能够为包括但不限于图像分类、目标检测、实
2024-11-11 01:45:00
716
原创 YoloV8改进策略:Block改进|EPSANet,卷积神经网络上的高效金字塔挤压注意力块|即插即用|代码+改进方法
https://arxiv.org/pdf/2105.14447最近,研究表明通过在深度卷积神经网络中嵌入注意力模块可以有效提升其性能。本文提出了一种新颖、轻量且有效的注意力方法,即金字塔挤压注意力(PSA)模块。通过将ResNet的瓶颈块中的3×33 \times 33×3卷积替换为PSA模块,获得了一种名为高效金字塔挤压注意力(EPSA)的新型表示块。EPSA块可以轻松地作为即插即用组件添加到已建立的主干网络中,并能显著提升模型性能。因此,本文通过堆叠这些ResNet风格的EPSA块,开发了一种简单且高
2024-11-10 21:55:02
651
原创 YoloV9改进策略:注意力改进|EPSANet,卷积神经网络上的高效金字塔挤压注意力块|即插即用|代码+改进方法
论文介绍本文介绍的论文是“EPSANet:卷积神经网络上的高效金字塔挤压注意力块”,该论文提出了一种新颖、轻量且有效的注意力方法,即金字塔挤压注意力(PSA)模块。论文通过替换ResNet瓶颈块中的3×33 \times 33×3卷积为PSA模块,获得了一种名为高效金字塔挤压注意力(EPSA)的新型表示块。EPSA块能够轻松地作为即插即用组件添加到已建立的主干网络中,并能显著提升模型性能。基于这些EPSA块,论文开发了一种简单且高效的主干架构,即EPSANet,该架构能够为包括但不限于图像分类、目标检测、实
2024-11-10 15:46:47
355
原创 YoloV8改进策略:注意力改进|EPSANet,卷积神经网络上的高效金字塔挤压注意力块|即插即用|代码+改进方法
本文介绍的论文是“EPSANet:卷积神经网络上的高效金字塔挤压注意力块”,该论文提出了一种新颖、轻量且有效的注意力方法,即金字塔挤压注意力(PSA)模块。论文通过替换ResNet瓶颈块中的。
2024-11-10 15:33:43
229
原创 EPSANet:卷积神经网络上的高效金字塔挤压注意力块
最近,研究表明通过在深度卷积神经网络中嵌入注意力模块可以有效提升其性能。本文提出了一种新颖、轻量且有效的注意力方法,即金字塔挤压注意力(PSA)模块。通过将ResNet的瓶颈块中的3×3卷积替换为PSA模块,获得了一种名为高效金字塔挤压注意力(EPSA)的新型表示块。EPSA块可以轻松地作为即插即用组件添加到已建立的主干网络中,并能显著提升模型性能。因此,本文通过堆叠这些ResNet风格的EPSA块,开发了一种简单且高效的主干架构,即EPSANet。
2024-11-10 09:20:02
262
原创 DeBiFormer实战:使用DeBiFormer实现图像分类任务(一)
摘要一、论文介绍研究背景:视觉Transformer在计算机视觉领域展现出巨大潜力,能够捕获长距离依赖关系,具有高并行性,有利于大型模型的训练和推理。现有问题:尽管大量研究设计了高效的注意力模式,但查询并非源自语义区域的关键值对,强制所有查询关注不足的一组令牌可能无法产生最优结果。双级路由注意力虽由语义关键值对处理查询,但可能并非在所有情况下都能产生最优结果。论文目的:提出DeBiFormer,一种带有可变形双级路由注意力(DBRA)的视觉Transformer,旨在优化查询-键-值交互,自适应选
2024-11-09 21:17:57
686
原创 Yolo11改进策略:上采样改进|CARAFE,轻量级上采样|即插即用|附改进方法+代码
https://arxiv.org/pdf/1905.02188特征上采样是许多现代卷积网络架构(例如特征金字塔)中的关键操作。其设计对于诸如目标检测和语义/实例分割等密集预测任务至关重要。在本文中,我们提出了内容感知特征重组(CARAFE),这是一种通用、轻量级且高度有效的算子,以实现这一目标。CARAFE具有几个吸引人的特性:(1)大视野。与仅利用子像素邻域的前期工作(例如双线性插值)不同,CARAFE可以在大感受野内聚合上下文信息。(2)内容感知处理。与对所有样本使用固定核(例如反卷积)不同,CAR
2024-11-09 20:42:01
985
原创 Yolo11实战改进:一文读懂Yolo11到实战。
YOLO11是Ultralytics YOLO系列实时目标检测器的最新迭代版本,它以尖端的精度、速度和效率重新定义了可能性。在之前YOLO版本令人瞩目的进步基础上,YOLO11在架构和训练方法上引入了重大改进,使其成为各种计算机视觉任务的通用选择。关键特性:YOLO11采用改进的主干网络和颈部架构,提高了特征提取能力,以实现更精确的目标检测和更复杂的任务性能。YOLO11引入了精细的架构设计和优化的训练流程,提供了更快的处理速度,并在准确性和性能之间保持了最佳平衡。
2024-11-09 15:51:37
826
原创 YoloV10改进策略:上采样改进|CARAFE,轻量级上采样|即插即用|附改进方法+代码
https://arxiv.org/pdf/1905.02188特征上采样是许多现代卷积网络架构(例如特征金字塔)中的关键操作。其设计对于诸如目标检测和语义/实例分割等密集预测任务至关重要。在本文中,我们提出了内容感知特征重组(CARAFE),这是一种通用、轻量级且高度有效的算子,以实现这一目标。CARAFE具有几个吸引人的特性:(1)大视野。与仅利用子像素邻域的前期工作(例如双线性插值)不同,CARAFE可以在大感受野内聚合上下文信息。(2)内容感知处理。与对所有样本使用固定核(例如反卷积)不同,CAR
2024-11-07 22:12:26
430
原创 YoloV8分割实战:使用YoloV8训练Aeroscapes数据集
Aeroscapes 是一个专注于空中语义分割的数据集,它由一组从商业无人机上拍摄的图像组成,涵盖了从5到50米不等的高度范围。此数据集提供了3269张720p分辨率的图片以及相应的地面真实度(ground-truth)标记,涵盖11种不同的类别。
2024-11-07 14:38:08
161
原创 python 遍历字典
在 Python 中,遍历字典(dictionary)通常意味着访问其键(keys)、值(values)或键值对(key-value pairs)。
2024-11-07 10:10:05
24
原创 YoloV9改进策略:上采样改进|CARAFE,轻量级上采样|即插即用|附改进方法+代码
论文介绍CARAFE模块概述:本文介绍了一种名为CARAFE(Content-Aware ReAssembly of FEatures)的模块,它是一种用于特征上采样的新方法。应用场景:CARAFE模块旨在改进图像处理和计算机视觉任务中的上采样过程,特别适用于目标检测、实例分割、语义分割和图像修复等任务。目标:通过引入内容感知的重新组装机制,CARAFE旨在提高上采样过程的准确性和效率。创新点内容感知上采样:与传统的上采样方法(如双线性插值、转置卷积等)相比,CARAFE引入了内容感知机制,
2024-11-04 08:16:49
1047
原创 YoloV8改进策略:上采样改进:CARAFE:轻量级上采样|即插即用|附改进方法+代码
https://arxiv.org/pdf/1905.02188特征上采样是许多现代卷积网络架构(例如特征金字塔)中的关键操作。其设计对于诸如目标检测和语义/实例分割等密集预测任务至关重要。在本文中,我们提出了内容感知特征重组(CARAFE),这是一种通用、轻量级且高度有效的算子,以实现这一目标。CARAFE具有几个吸引人的特性:(1)大视野。与仅利用子像素邻域的前期工作(例如双线性插值)不同,CARAFE可以在大感受野内聚合上下文信息。(2)内容感知处理。与对所有样本使用固定核(例如反卷积)不同,CAR
2024-11-04 00:15:00
1771
原创 YoloV9改进策略:Neck改进|SEAM与MultiSEAM模块,提高小目标和遮挡目标的检测精度|即插即用|附加代码+改进方法
本文参考了“YOLO-FaceV2:A Scale and Occlusion Aware Face Detector”的研究内容,该论文提出了一种基于YOLOv5的人脸检测方法,即YOLO-FaceV2,以解决人脸尺度变化、简单与困难样本不平衡以及人脸遮挡等问题。受到该论文的启发,本文将SEAM模块(遮挡感知注意力网络)及其扩展形式MultiSEAM模块引入到YoloV9中,旨在提升物体遮挡检测精度以及小目标的检测性能。
2024-11-03 10:38:40
266
原创 CARAFE:基于内容感知的特征(FEatures)重新组装
特征上采样是许多现代卷积网络架构(例如特征金字塔)中的关键操作。其设计对于诸如目标检测和语义/实例分割等密集预测任务至关重要。在本文中,我们提出了内容感知特征重组(CARAFE),这是一种通用、轻量级且高度有效的算子,以实现这一目标。CARAFE具有几个吸引人的特性:(1)大视野。与仅利用子像素邻域的前期工作(例如双线性插值)不同,CARAFE可以在大感受野内聚合上下文信息。(2)内容感知处理。与对所有样本使用固定核(例如反卷积)不同,CARAFE支持针对实例的内容感知处理,可以即时生成自适应核。
2024-11-03 09:57:57
759
原创 YoloV10改进策略:Neck改进|SEAM与MultiSEAM模块,提高小目标和遮挡目标的检测精度|即插即用|附加代码+改进方法
本文参考了“YOLO-FaceV2:A Scale and Occlusion Aware Face Detector”的研究内容,该论文提出了一种基于YOLOv5的人脸检测方法,即YOLO-FaceV2,以解决人脸尺度变化、简单与困难样本不平衡以及人脸遮挡等问题。受到该论文的启发,本文将SEAM模块(遮挡感知注意力网络)及其扩展形式MultiSEAM模块引入到YoloV10中,旨在提升物体遮挡检测精度以及小目标的检测性能。
2024-10-30 06:06:39
681
原创 YoloV8改进策略:Neck改进|SEAM与MultiSEAM模块,提高小目标和遮挡目标的检测精度|即插即用|附加代码+改进方法
本文参考了“YOLO-FaceV2:A Scale and Occlusion Aware Face Detector”的研究内容,该论文提出了一种基于YOLOv5的人脸检测方法,即YOLO-FaceV2,以解决人脸尺度变化、简单与困难样本不平衡以及人脸遮挡等问题。受到该论文的启发,本文将SEAM模块(遮挡感知注意力网络)及其扩展形式MultiSEAM模块引入到YoloV8中,旨在提升物体遮挡检测精度以及小目标的检测性能。
2024-10-30 06:04:45
557
原创 YoloV10改进策略:Block改进|RFE模块,提高小物体的识别精度|即插即用|代码+修改过程
本文介绍了一种基于YOLOv5的人脸检测方法,命名为YOLO-FaceV2。该方法旨在解决人脸检测中的尺度变化、简单与困难样本不平衡以及人脸遮挡等问题。通过引入一系列创新模块和损失函数,YOLO-FaceV2在WiderFace数据集上取得了优异的表现,特别是在小物体、遮挡和困难样本的检测上。
2024-10-29 21:53:29
112
原创 YoloV9改进策略:Block改进|RFE模块,提高小物体的识别精度|即插即用|代码+修改过程
本文介绍了一种基于YOLOv5的人脸检测方法,命名为YOLO-FaceV2。该方法旨在解决人脸检测中的尺度变化、简单与困难样本不平衡以及人脸遮挡等问题。通过引入一系列创新模块和损失函数,YOLO-FaceV2在WiderFace数据集上取得了优异的表现,特别是在小物体、遮挡和困难样本的检测上。
2024-10-29 21:51:42
476
原创 YoloV8改进策略:Block改进|RFE模块,提高小物体的识别精度|即插即用|代码+修改过程
本文介绍了一种基于YOLOv5的人脸检测方法,命名为YOLO-FaceV2。该方法旨在解决人脸检测中的尺度变化、简单与困难样本不平衡以及人脸遮挡等问题。通过引入一系列创新模块和损失函数,YOLO-FaceV2在WiderFace数据集上取得了优异的表现,特别是在小物体、遮挡和困难样本的检测上。
2024-10-28 21:20:53
1665
原创 YOLO-FaceV2:A Scale and Occlusion Aware Face Detector
近年来,基于深度学习的人脸检测算法取得了巨大进展。这些算法一般可以分为两类,即像Faster R-CNN这样的两阶段检测器和像YOLO这样的一阶段检测器。由于一阶段检测器在精度和速度之间取得了更好的平衡,因此已被广泛应用于多种场景。在本文中,我们提出了一种基于一阶段检测器YOLOv5的实时人脸检测器,命名为YOLO-FaceV2。我们设计了一个称为RFE的感受野增强模块来增强小人脸的感受野,并使用NWD Loss来弥补IoU对小物体位置偏差的敏感性。
2024-10-28 20:54:56
789
原创 YoloV10改进策略:卷积篇|大感受野的小波卷积|即插即用
论文介绍了一种新的WTConv模块,该模块通过利用小波变换有效地增加了卷积的感受野,并作为深度卷积的即插即用替代品在多个计算机视觉任务中表现出色。使用WTConv替换YoloV8的Conv模块有望带来类似的改进效果。https://arxiv.org/pdf/2407.05848近年来,人们尝试增大卷积神经网络(CNNs)的核大小,以模仿视觉转换器(ViTs)自注意力模块的全局感受野。然而,这种方法很快便达到了上限,并且在实现全局感受野之前就饱和了。在本文中,我们证明了通过利用小波变换(WT),实际上可以
2024-10-27 20:44:42
281
原创 YoloV9改进策略:卷积篇|大感受野的小波卷积|即插即用
通过百度网盘分享的文件:YoloV9改进策略:卷积篇大感受野的小波卷积即插即用链接:https://pan.baidu.com/s/1wA52inyyoN77LT5-25yvIA
2024-10-27 20:17:12
303
原创 YoloV8改进策略:卷积篇|大感受野的小波卷积|即插即用
通过百度网盘分享的文件:YoloV8改进策略:卷积篇大感受野的小波卷积即插即用链接:https://pan.baidu.com/s/1dtVD6zkg7EIQuScnz2N7_Q?
2024-10-24 21:30:33
1099
原创 大感受野的小波卷积
近年来,人们尝试增大卷积神经网络(CNNs)的核大小,以模仿视觉转换器(ViTs)自注意力模块的全局感受野。然而,这种方法很快便达到了上限,并且在实现全局感受野之前就饱和了。在本文中,我们证明了通过利用小波变换(WT),实际上可以在不遭受过度参数化的情况下获得非常大的感受野,例如,对于k×k感受野,所提出方法中可训练参数的数量仅随k对数增长。所提出的层,命名为WTConv,可以作为现有架构中的即插即用替代品,产生有效的多频响应,并且随着感受野大小的增加而优雅地扩展。
2024-10-24 20:48:32
131
原创 Python for循环提速指南:原因、解决方法与实战案例
在Python编程中,for循环是处理序列数据(如列表、元组、字典等)的常用工具。然而,当面对大量数据或耗时任务时,for循环的顺序执行方式可能会成为性能瓶颈。为了提升for循环的执行效率,我们可以采用多线程、多进程等优化手段。本文将深入探讨for循环提速的原因、解决方法,并通过实战案例展示如何实施这些优化策略。
2024-10-23 08:54:53
85
原创 Molmo和PixMo:为最先进的多模态模型提供开放权重和开放数据
当今最先进的多模态模型仍然是专有的。性能最强的开源模型严重依赖专有视觉语言模型(Vision-Language Model,简称VLM)的合成数据来获得良好性能,有效地将这些封闭模型提炼为开放模型。因此,业界仍然缺少关于如何从零开始构建高性能VLM的基础知识。我们提出了Molmo,这是一个在其开放性类别中处于最前沿的新VLM系列。我们的关键创新在于一个全新且高度详细的图像字幕数据集,该数据集完全基于人类注释者使用语音描述收集而成。
2024-10-22 21:45:21
157
原创 Yolo数据处理:数据增强篇|图像旋转
假设一种情况:数据集是别人给你做好的Yolo格式的数据,是遥感或者无人机拍摄的数据。我们对其做一些旋转增强。
2024-10-21 16:38:04
73
原创 YoloV10——专栏目录
汲取最新论文精华,给你一整套YoloV10升级秘籍!包括但不限于:注意力加持、卷积大换血、Block革新、Backbone升级、Head重塑,还有优化器大换血!每篇都是干货,给你N种升级选择!:订阅后,独家资源等你解锁!实测数据集、详细代码和PDF教程,全部为你精心准备,只为你能更深入地学习和提升!还有专属QQ群等你加入,答疑解惑,一起进步!订阅后,输出订单号,即可入群!:已经更新23篇,精彩不断,持续更新中…记得订阅后,更多独家资源等你来拿!:质量为王,力求每篇都是精品!用心打造,只为更好的你!
2024-10-21 16:36:07
335
原创 YoloV10改进策略:归一化改进|ContraNorm在YoloV10中的创新应用(全网首发)
通过百度网盘分享的文件:YoloV10改进策略:归一化改进ContraNorm在YoloV8中...链接:
2024-10-21 08:30:47
943
原创 YoloV9改进策略:归一化改进| ContraNorm在YoloV9中的创新应用(全网首发)
论文介绍ContraNorm提出背景:过平滑是图神经网络(GNNs)和Transformer中普遍存在的一种现象,随着层数的增加,性能会恶化。现有方法多从表征完全收敛到单一点的视角来刻画过平滑,但论文深入到一个更一般的维度坍缩视角,其中表征位于一个狭窄的锥体中。ContraNorm的提出:受对比学习在防止维度坍缩方面有效性的启发,论文提出了一种新的归一化层,称为ContraNorm。该层在嵌入空间中隐式地分散表征,导致更均匀的分布和更轻微的维度坍缩。实验验证:论文在各种真实数据集上的实验证明了Con
2024-10-21 08:29:46
943
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅