- 博客(1711)
- 收藏
- 关注
原创 Python 字节码指令
本文系统介绍CPython字节码机制,涵盖3.11+版本的关键特性。主要内容包括:CPython基于栈的虚拟机模型,包含值栈、块栈和帧结构;3.11版本引入的自适应解释器与内联缓存优化;代码对象的组成要素;指令格式演变及执行过程;查看字节码的实用工具;各类指令的功能分类与栈效应分析。重点解析了3.11+版本对控制流、函数调用等指令的专门化改进,以及如何通过反专门化保持行为一致性。文章采用实践导向的说明方式,帮助开发者从理解dis输出进阶到进行性能分析。
2025-10-30 22:28:10
1539
原创 mAP(mean Average Precision,平均精度均值)
mAP(平均精度均值)是目标检测的核心评估指标,综合衡量模型在不同置信度阈值下的检测质量。它通过计算P-R曲线下面积(AP)并平均多类别和多IoU阈值结果得到。关键概念包括:TP/FP判定标准(IoU匹配)、P-R曲线构建(按置信度排序)、两种AP计算方法(11点插值和连续积分)。COCO标准采用更严格的mAP@[.5:.95],在10个IoU阈值上平均AP。实际应用中需注意评测一致性、类别单独计算、重复检测处理等问题,同时结合AP50/75和不同目标尺寸的AP分析模型表现差异。优化方向包括改进框回归损失、
2025-10-30 15:48:46
1901
原创 CIoU(Complete IoU)
CIoU (Complete IoU) 损失函数在目标检测中结合了重叠度、中心点距离和宽高比一致性三重约束,能够提供更全面的边界框回归优化。相比IoU、GIoU和DIoU,CIoU通过引入形状一致性项(v)和自适应权重(α),有效解决了无重叠梯度消失和形状匹配不足的问题。其数学表达式包含归一化的中心距离惩罚项和基于角度差的宽高比项,使得预测框能更快收敛到正确的位置和形状。实际应用中,CIoU常与其他损失函数配合使用,在小目标检测和极端长宽比情况下表现尤为稳健,显著提升了检测精度和收敛速度。PyTorch实现
2025-10-30 15:23:59
1764
原创 SPPF(Spatial Pyramid Pooling - Fast, 快速空间金字塔池化)
SPPF(快速空间金字塔池化)是YOLO系列目标检测算法中的高效上下文聚合模块,用于在低分辨率特征图上融合多尺度全局信息。相较于传统SPP并行多分支池化结构,SPPF采用串行重复池化的方式(如5×5最大池化连续执行3次)获取近似效果,显著减少计算复杂度和内存占用。其核心优势在于以极低成本为检测网络提供局部细节与大范围上下文(如有效识别小目标关联场景或大物体整体轮廓)的复合特征。该模块通常部署在YOLO主干网络末端或特征金字塔颈部,与FPN/PAN等多尺度结构协同工作,在保持实时性能的同时提升检测精度。后续演
2025-10-29 12:10:56
1340
原创 什么是 C2f: YOLOv8 中引入的一种高效特征提取模块
C2f是YOLOv8引入的高效特征提取模块,属于CSP家族的改良版本。其核心结构为:输入特征经1×1卷积后拆分两路,一路通过多个串联的Bottleneck块提取特征,另一路保持直通;最后将所有中间特征拼接后通过1×1卷积融合输出。这种设计具有三大优势:通过多阶段特征显式保留增强梯度流,提升特征多样性;采用轻量残差块降低计算量;结构规整便于工业部署。相比前代C3模块,C2f融合了YOLOv7的E-ELAN思想,在保持梯度流和特征多样性的同时优化了计算效率,成为YOLOv8主干和颈部网络的核心构建单元。
2025-10-29 01:17:34
2301
原创 SiLU 激活函数
SiLU激活函数(Sigmoid Linear Unit)是一种平滑、可导的激活函数,定义为x·sigmoid(x)。相比ReLU,SiLU在负区间保留部分信息而非直接截断,具有连续梯度和自门控特性,能避免神经元死亡问题。虽然计算成本略高于ReLU,但其平滑性在YOLO系列和Transformer混合网络中展现出更好的训练稳定性和精度。SiLU可视为Swish-1的特例,通过柔和的非线性平衡了表示能力与优化效率,成为现代检测网络的首选激活之一。
2025-10-28 22:29:16
2115
原创 YOLO 模型综述
YOLO系列是实时目标检测领域最具影响力的模型家族之一。从2015年YOLOv1首次提出端到端单次检测框架,到2023年YOLOv12,该系列不断突破性能边界。YOLOv1开创性地将检测视为回归问题,实现45FPS实时检测;YOLOv3引入多尺度预测提升小目标识别;YOLOv5以PyTorch实现工业化应用;YOLOv6针对边缘设备优化,达到1200FPS;YOLOv8则采用无锚框设计。最新版本融合Transformer等新技术,在保持实时性的同时实现更高精度。YOLO系列通过持续创新,使目标检测从实验室走
2025-10-26 18:26:07
1312
原创 YOLOv12
YOLOv12是新一代目标检测模型,融合注意力机制与实时检测优势。其核心创新包括:A2区域注意力模块,通过条带化局部注意力降低计算复杂度;R-ELAN特征聚合模块,增强多尺度特征复用;以及适配实时检测的工程优化。模型延续YOLO系列多尺度、anchor-free的设计理念,提供N/S/M/L/X不同规格版本,在保持毫秒级推理速度的同时提升检测精度。相比前代YOLO,YOLOv12首次将注意力机制置于模型核心,实现了Transformer表达能力与卷积网络效率的平衡。
2025-10-26 17:39:40
1246
原创 YOLOv11
YOLOv11是YOLO系列的最新实时目标检测模型,延续单阶段检测范式,在精度、速度、多任务统一和轻量化方面实现平衡。其核心改进包括: 主干网络:采用新型C3k2模块替代传统C2f,通过多路并行小卷积核提升特征多样性,降低计算量。 颈部结构: 使用SPPF快速空间金字塔池化,融合多尺度上下文信息 引入C2PSA轻量注意力模块,增强关键区域关注 检测头:保持anchor-free+解耦头设计,支持多尺度预测,提升不同大小目标的检测能力。 多任务支持:统一框架下实现目标检测、实例分割、关键点检测、旋转框检测和图
2025-10-26 17:03:21
1274
原创 YOLOv10
YOLOv10是清华大学团队提出的新一代实时目标检测模型,核心创新在于实现了真正端到端检测(无需NMS后处理)并显著提升效率。相比前代YOLO,其主要突破包括:1)采用"一致双重分配"策略,训练时并行使用一对多和一对一检测头,推理时仅保留一对一头部直接输出去重结果;2)系统性重构网络架构,引入空间-通道解耦下采样、紧凑倒置块等组件,在相同精度下降低30%参数量和40%计算量。实验显示,YOLOv10-S在COCO数据集上以更少参数量达到与YOLOv8-X相当的精度,同时推理速度提升46%
2025-10-26 16:50:52
1102
原创 YOLOv9
YOLOv9 是一种高性能实时目标检测框架,其核心创新包括可编程梯度信息(PGI)和广义高效层聚合网络(GELAN)。PGI在训练阶段为主网络提供可靠梯度监督,避免信息丢失导致的训练偏差,且不增加推理成本。GELAN通过优化主干和特征金字塔结构,提高特征复用率和梯度流动效率。该模型显著提升了轻量模型的检测精度,在无需大规模预训练的情况下即可达到优异性能,同时保持实时推理速度。YOLOv9系统解决了深层网络信息丢失、梯度不可靠等长期痛点,尤其提升了小模型的学习能力,使其更适合实际部署场景。
2025-10-26 16:39:05
746
原创 YOLOv8
YOLOv8是Ultralytics团队推出的新一代实时目标检测框架,采用统一架构支持检测、分割、分类和姿态估计等多任务。其核心创新包括:1) C2f模块改进的主干网络,增强梯度流和特征表达;2) Anchor-free解耦检测头,消除锚框依赖,简化训练流程;3) PAN-FPN多尺度特征融合颈部结构。支持从Nano到X-Large多种尺寸模型变体,在保持高推理速度的同时提升精度,尤其擅长小目标检测。YOLOv8通过工程化设计实现训练、验证、导出和推理的一体化工作流,显著降低部署复杂度。
2025-10-26 16:29:00
1278
原创 YOLOv7
YOLOv7是YOLO系列的高性能实时目标检测框架,在保持推理高效的同时提升检测精度。其核心创新包括:E-ELAN主干网络增强特征表达能力;针对拼接结构的模型缩放策略;主头与辅助头协同训练机制;以及一系列可训练技巧。YOLOv7采用经典的三段式架构:E-ELAN主干提取特征,FPN/PANet风格颈部进行多尺度融合,检测头输出预测结果。相比前代,YOLOv7在不显著增加推理复杂度的前提下,通过系统化的训练方案进一步提升了检测性能。
2025-10-26 16:20:32
719
原创 YOLOv6
YOLOv6是美团团队开发的工业级实时目标检测框架,强调高精度、高吞吐和易部署性。它采用单阶段检测架构,包括EfficientRep主干网络、Rep-PAN特征融合颈部和解耦式检测头。核心创新点包括可重参数化卷积(训练多分支,推理合并为单分支)和anchor-free预测机制,兼顾训练效果与推理效率。相比前代,YOLOv6更注重工业落地,支持量化部署和模型压缩,提供不同规模变体以适应各类计算场景。该框架通过优化网络结构和训练策略,在保持YOLO系列实时性的同时提升了检测精度和部署友好性。
2025-10-26 15:53:43
906
原创 YOLOv5
YOLOv5是基于PyTorch的单阶段实时目标检测模型,由Ultralytics开源并持续迭代。其架构分为三部分:Backbone(CSPDarknet变体+SPPF模块)、Neck(FPN+PANet双向特征融合)和Head(多尺度检测头)。YOLOv5在保持YOLO系列高速度的同时,通过工程化改进提升了精度和易用性,支持多种模型规模(yolov5n/s/m/l/x)和硬件部署。训练时采用Mosaic数据增强、自动Anchor生成等策略,推理流程包括图像预处理、多尺度预测、边界框解码和NMS后处理。该模
2025-10-26 15:41:48
1076
原创 YOLOv4
YOLOv4是YOLO系列目标检测算法的重要升级版本,旨在保持实时推理速度(60+FPS)的同时提升检测精度。其核心架构包含三部分:CSPDarknet-53主干网络(引入CSPNet结构减少冗余计算)、SPP+PANet特征融合颈部(增强多尺度特征表达能力),以及多尺度YOLO检测头。相比前代,YOLOv4系统性地整合了大量训练技巧,包括Mosaic数据增强、CIoU损失函数等"Bag-of-Freebies"方法(仅影响训练)和SPP模块等"Bag-of-Specials&
2025-10-26 15:31:42
826
原创 YOLOv3
YOLOv3是YOLO系列的第三代实时目标检测器,通过三方面关键升级显著提升性能:1)采用Darknet-53主干网络引入残差结构,增强特征表达能力;2)引入多尺度特征金字塔检测机制,在三个不同分辨率特征图上同时检测大中小目标;3)改进分类与置信度建模,使用独立二分类器替代softmax支持多标签场景。该算法保持了单阶段检测器的实时性优势,通过特征金字塔结构和深层网络显著提升了小目标检测能力,在精度上达到甚至超越部分两阶段检测器水平。推理时采用类似YOLOv2的坐标还原方法,但扩展到三个检测尺度,通过NMS
2025-10-26 15:14:30
662
原创 YOLOv2
YOLOv2是YOLO系列目标检测算法的改进版本,在保持实时性的同时显著提升了检测精度。其核心改进包括:采用Darknet-19作为主干网络,引入批归一化(BN)加速训练;使用聚类分析得到更合理的anchor boxes先验框尺寸;通过passthrough layer融合高低分辨率特征提升小目标检测;采用多尺度训练策略使模型适应不同输入分辨率。YOLOv2还创新性地提出联合训练机制,既可单独用于目标检测,也能扩展为YOLO9000实现大规模分类检测。这些系统性改进使YOLOv2在速度和精度上取得更好平衡,
2025-10-26 15:09:29
1092
原创 YOLOv1
YOLOv1是一种革命性的单阶段目标检测算法,通过将图像分割为7×7网格,每个网格单元直接预测物体边界框和类别概率,实现端到端的检测。相比传统两阶段方法,YOLOv1速度更快(45-155FPS),但对小目标检测效果较差。其网络结构包含24个卷积层和2个全连接层,输出7×7×30的张量,其中包含边界框坐标、置信度和20个类别的概率。推理时通过置信度与类别概率相乘得到最终检测结果,实现了实时目标检测的突破。
2025-10-26 00:18:10
620
原创 Darknet 深度学习框架
Darknet是一个高效的轻量级开源神经网络框架,专注于计算机视觉任务,特别是YOLO系列实时目标检测模型。由Joseph Redmon开发,后由社区维护优化,支持GPU加速和跨平台部署。其核心优势在于高性能、简易安装和灵活配置,但相比主流框架社区支持较弱。Darknet广泛应用于农业、交通监控等领域,在嵌入式系统和实时检测场景中表现突出。尽管原开发者已退出,社区版本仍在持续演进,保持其在目标检测领域的竞争力。
2025-10-26 00:15:56
1098
原创 什么是 FCOS:将物体检测转化为每个像素的预测任务
FCOS(Fully Convolutional One-Stage Object Detection,全卷积单阶段物体检测)是一种开创性的anchor-free物体检测模型,由Tian等人于2019年提出。它将检测转化为像素级预测任务,通过全卷积网络直接预测类别、边界框偏移和中心度,避免了传统锚框的依赖。FCOS基于ResNet+FPN架构,使用多任务损失函数,在COCO数据集上达到38.7%的AP和31FPS速度。相比YOLO和RetinaNet,FCOS更简单高效,但存在边界像素和小物体检测的局限。
2025-10-25 21:11:21
1112
原创 什么是 CenterNet:将目标检测问题视为关键点回归问题
CenterNet(2019)是一种创新的anchor-free物体检测模型,将物体视为中心点并通过热图预测位置,避免了传统锚框的复杂性。其架构基于关键点估计,结合热图、偏移和尺寸预测,使用多任务损失函数实现高效检测(COCO AP 42.1%,28 FPS)。相比CornerNet和YOLO,CenterNet在速度与精度间取得更好平衡。优势包括简化设计、多任务扩展性,但存在小物体检测和密集场景的局限。后续改进如CenterNet2增强了性能,广泛应用于自动驾驶、医疗等领域,推动了anchor-free
2025-10-25 18:41:05
1152
原创 什么是 Corner Pooling:在水平和垂直方向上分别取最大值来聚合特征
Corner Pooling是一种创新的池化方法,由Hei Law和Jia Deng在2018年提出,主要用于物体检测任务中的角点定位。与传统池化不同,它通过水平和垂直方向分别取最大值来聚合特征,有效捕捉物体边界外的上下文信息。作为CornerNet的核心组件,该方法简化了检测流程,避免了锚框调优,在MS COCO数据集上表现出色。虽然具有边界捕捉能力强、鲁棒性好等优势,但也存在方向限制、可能引入噪声等局限。未来,该方法有望在3D检测、视频分析等领域继续发挥影响力。
2025-10-25 18:21:29
873
原创 什么是 CornerNet:将物体边界框视为一对关键点
CornerNet是一种创新的单阶段物体检测模型,通过将物体边界框视为一对关键点(左上角和右下角),消除了传统检测器对锚框的依赖。该模型基于Hourglass Network架构,使用热图预测、偏移修正和嵌入匹配机制生成边界框。CornerNet在COCO数据集上达到42.1% AP,推动了anchor-free检测方法的发展,但其计算效率较低。后续改进版CornerNet-Lite优化了速度,应用于工业检测和医疗影像等领域。作为关键点检测范式的先驱,CornerNet对3D检测等方向持续产生影响。
2025-10-25 18:07:10
1017
原创 什么是 RoI Align:解决 RoI Pooling 在像素对齐上的问题
RoI Align是计算机视觉中用于精确提取变尺寸感兴趣区域特征的关键组件,由Kaiming He等人在2017年提出。相比传统RoI Pooling,它通过双线性插值和浮点坐标采样避免了量化误差,显著提升了小物体检测和实例分割的精度。核心原理是将RoI分成网格但不量化边界,在每个bin内采样并插值计算特征值。RoI Align在医疗影像和自动驾驶等需要高精度的领域表现优异,未来可能扩展到3D视觉和高效计算方向。尽管计算量稍大,但其精确性使其成为现代检测框架的标准组件。
2025-10-25 17:01:58
1137
原创 什么是 Mask R-CNN:RoIAlign 与实例分割
Mask R-CNN是一种基于Faster R-CNN改进的实例分割模型,由Kaiming He等人于2017年提出。它在Faster R-CNN框架上增加了并行分支用于预测像素级分割掩码,实现了物体检测、边界框回归和实例分割的统一。模型采用RoI Align技术解决量化误差,提升了分割精度,在COCO数据集上达到37.1%的mask AP。虽然计算量较大,但Mask R-CNN凭借精确分割和多任务优势,在医疗影像、自动驾驶等领域广泛应用。其核心思想对后续模型如Cascade Mask R-CNN产生深远影
2025-10-25 16:44:52
828
原创 多分类 Focal Loss 的 Python 代码实现
本文介绍了Focal Loss及其PyTorch实现。Focal Loss是一种用于解决类别不平衡问题的损失函数,通过降低易分类样本的权重,使模型更关注难分类样本。代码实现了FocalLoss类,包含初始化参数(alpha、gamma、label_smooth)和forward方法,其中计算交叉熵损失并应用Focal权重。示例展示了如何使用随机生成的预测和真实标签计算损失值(0.5556)和梯度。该实现支持类别权重和标签平滑,适用于目标检测等任务。
2025-10-25 15:49:31
775
原创 什么是 RetinaNet:样本均衡问题与 Focal Loss
RetinaNet是一种开创性的单阶段目标检测模型,由Facebook AI Research团队于2017年提出。其核心创新是引入Focal Loss函数,有效解决了类别不平衡问题,使单阶段检测器在保持实时速度(59 FPS)的同时,准确率(mAP 39.1%)媲美两阶段模型。RetinaNet结合了ResNet骨干网络、特征金字塔(FPN)和两个任务特定子网络,通过密集锚框设计特别适合小目标检测。相比YOLO和SSD等单阶段模型,RetinaNet在精度上有显著提升。尽管存在计算量较大、参数调优复杂等局
2025-10-25 15:39:58
602
原创 FPN 模型 Python 代码实现
本文实现了一个基于PyTorch的Feature Pyramid Network(FPN)结构,用于多尺度特征提取。该网络以ResNet-50为骨干,包含四个阶段的Bottleneck块构建特征金字塔。通过自底向上的路径提取多级特征后,采用自顶向下路径和横向连接(1x1卷积)进行特征融合,最后通过3x3卷积生成各层特征输出。输入为256x256的RGB图像,输出为四个不同尺度的特征图(P2-P5)。代码实现了特征金字塔的经典上采样加和融合方式,为后续目标检测等任务提供多尺度特征支持。
2025-10-25 15:05:23
897
原创 什么是FPN( Feature Pyramid Network):特征金字塔用于目标检测
FPN(特征金字塔网络)是2016年提出的多尺度特征融合架构,通过自底向上和自顶向下路径结合高低分辨率特征,显著提升物体检测性能。其核心包括横向连接和3×3卷积融合,在COCO数据集上使Faster R-CNN的mAP提高2-3%。相比SSD和SPP-Net,FPN实现了更好的多尺度语义融合,成为现代检测框架(如YOLOv8)的标准组件。尽管存在计算成本和小物体检测的局限,后续改进如PANet和NAS-FPN进一步优化了性能。FPN广泛应用于自动驾驶、医疗影像等领域,其多尺度融合思想持续影响计算机视觉发展。
2025-10-25 14:51:11
987
原创 什么是 SSD:多尺度预测目标检测器
SSD(Single Shot MultiBox Detector)是一种高效的实时物体检测模型,于2015年提出,2016年发表于ECCV会议。它通过单次前向传播实现物体边界框和类别分数的预测,基于VGG-16骨干网络和多尺度特征图,使用默认框机制,达到59 FPS和74.3%的mAP(PASCAL VOC)。相较于两阶段检测器如Faster R-CNN,SSD无需区域提案网络,计算效率高,适合移动设备等资源受限环境。其核心包括多尺度特征提取、默认框预测和非最大抑制,损失函数结合定位和和置信度损失。
2025-10-24 23:51:27
1136
原创 什么是 YOLOv1:单阶段目标检测器的代表模型
YOLOv1是2015年提出的开创性实时目标检测模型,将检测任务转化为单一回归问题,通过单次前向传播同时预测边界框和类别概率。其创新点包括统一检测框架、网格化图像处理和端到端训练,在PASCAL VOC数据集上达到63.4% mAP和45 FPS。相比两阶段检测器(如Faster R-CNN),YOLOv1具有更高速度但精度稍低。虽然存在小物体检测不足等局限,但奠定了单阶段检测器基础,影响了后续YOLO系列发展。该模型在自动驾驶、安防监控等领域应用广泛,其回归思想至今仍具影响力。
2025-10-24 23:08:31
1022
原创 什么是 RPN 网络:从图像的特征图中高效生成潜在的物体区域提案
RPN(区域提案网络)是Faster R-CNN的核心组件,用于高效生成物体检测候选区域。它通过滑动窗口和锚框机制,结合分类和回归分支,直接从特征图预测物体位置。RPN解决了传统方法计算效率低的问题,将检测速度提升至0.2秒/图,同时保持高准确率。其多任务损失函数平衡了分类和定位任务。虽然存在锚框依赖等局限,但通过FPN等改进,RPN仍在自动驾驶、医疗影像等领域广泛应用。这一创新推动了物体检测从传统方法向端到端深度学习的转变。
2025-10-24 22:23:36
1110
原创 ROI 池化 Python 代码实现
本文实现了一个简化的RoI Pooling模块,用于计算机视觉中的目标检测任务。该模块从共享特征图中提取感兴趣区域(ROI)的特征,并将其转换为固定尺寸输出。代码定义了ROIPool类,继承自PyTorch的nn.Module,通过自适应最大池化将不同大小的ROI统一到指定尺寸。测试示例展示了模块处理5个ROI的过程,输出特征图尺寸为[5,64,6,6]。该实现简化了标准RoI Pooling的网格划分过程,直接使用自适应池化,计算简单但可能在边界处理上不够精确。这种方法能显著提高检测效率,在Faster
2025-10-24 21:00:57
816
原创 什么是 ROI 池化:从特征图提取不同尺寸的ROI并转换为固定尺寸的特征向量
RoI池化是计算机视觉中物体检测的关键技术,最早由Fast R-CNN提出。它将不同尺寸的感兴趣区域转换为固定特征向量,通过在共享特征图上操作大幅提升检测效率(加速10-100倍)。虽然存在量化误差等局限,但该技术为后续RoI Align等改进奠定了基础,广泛应用于自动驾驶、安防等领域。其核心思想源于空间金字塔池化(SPP),通过网格划分和最大池化实现特征标准化,支持了两阶段检测器的发展。
2025-10-24 20:39:36
1115
原创 什么是 Fast R-CNN 和 Faster R-CNN
Fast R-CNN和Faster R-CNN是物体检测领域的重要模型,属于R-CNN系列的演进版本。Fast R-CNN通过共享卷积特征和RoI Pooling层,显著提升了检测速度。Faster R-CNN则进一步引入Region Proposal Network(RPN),实现了端到端训练,在速度和准确率上均有突破。两模型都采用多任务损失函数,支持分类和边界框回归。主要区别在于Faster R-CNN内置RPN取代了外部区域提案方法,使检测更高效。这些模型为后续Mask R-CNN等奠定了基础,广泛应
2025-10-24 19:09:19
1132
原创 SPP 模块 Python 代码实现
该代码实现了一个空间金字塔池化(SPP)模块,可将任意尺寸的输入特征图转换为固定长度的向量。SPPModule类支持设置不同池化级别(如[1,2,3,6])和池化模式(max或avg)。在forward过程中,对输入特征图进行多级池化,每级将特征图划分为对应网格进行池化,并将结果展平拼接成固定维度向量。这种结构能有效处理不同尺寸的输入,保留多尺度空间信息,适用于计算机视觉任务如目标检测和图像分类。示例演示了模块对211×103尺寸输入的处理过程。
2025-10-24 17:59:58
940
原创 什么是 SPP-Net
SPP-Net(空间金字塔池化网络)是2014年提出的计算机视觉重要创新,通过引入SPP层使CNN能处理任意尺寸图像,解决了传统模型需固定输入尺寸的局限。该网络在ILSVRC 2014竞赛中表现优异,将物体检测速度提升10-100倍。SPP层通过多级池化将变尺寸特征图转为固定向量,融合了多尺度信息,提高了模型鲁棒性。虽然后续被Fast R-CNN等改进,但其核心思想仍影响现代视觉模型。SPP-Net标志着从固定尺寸CNN向灵活输入模型的重要转变。
2025-10-24 17:51:00
999
原创 非极大值抑制( NMS)算法 Python 代码实现
本文介绍了两个用于目标检测的PyTorch函数:calc_bbox_iou和non_maximum_supression。calc_bbox_iou计算两个边界框的交并比(IoU),通过比较交集与并集面积衡量重叠程度。non_maximum_supression实现非极大值抑制(NMS)算法,基于置信度和IoU阈值筛选最优边界框,消除冗余检测。代码示例演示了如何计算两个边界框的IoU(0.143),并对三个边界框进行NMS处理,最终保留重叠度低于阈值的边界框。这两个函数是目标检测任务中边界框处理的核心组件。
2025-10-24 16:02:25
862
原创 非极大值抑制( NMS):消除冗余的检测结果
非极大值抑制(Non-Maximum Suppression, NMS)是目标检测中关键的后处理技术,用于消除冗余边界框,保留最优检测结果。其核心原理是基于置信度排序和交并比(IoU)阈值筛选,通过贪婪算法迭代保留高置信度框并抑制重叠框。NMS在YOLO、R-CNN等算法中广泛应用,显著提升检测精度。针对传统NMS的局限性,衍生出Soft-NMS、Weighted-NMS等改进方法,优化密集场景表现。尽管存在参数敏感等缺点,NMS因其简单高效仍是目标检测的重要组件,未来可能被端到端检测或学习型方法替代。
2025-10-24 15:54:56
1121
猫狗分类数据集-标准的计算机视觉数据集
2025-10-10
基于Python和Unstructured的多格式文档处理
2025-08-06
电影图数据库构造:基于Cypher查询语句创建影人关系网及其应用,Neo4j数据库 Movie Graph Guide 案例数据
2025-03-18
neo4j的配置文件,包含:neo4j.conf、neo4j-admin.conf、server-logs.xml、user-l
2025-03-17
Python基于toad实现生成评分卡 完整的示例代码和数据集
2025-01-05
toad.selection.select函数示例的数据集和代码
2025-01-03
toad.selection.stepwise函数示例的数据集和代码
2025-01-03
Metropolis-Hastings算法和吉布斯采样(Gibbs sampling)算法Python代码实现
2024-12-23
维特比算法Python代码实现
2024-12-09
EM算法Python代码实现
2024-11-29
朴素贝叶斯分类器算法Python代码实现
2024-11-25
PCA算法Python代码实现
2024-11-17
随机森林(Random Forest)算法Python代码实现
2024-11-13
CatBoost使用示例
2024-11-12
XGBoost算法Python代码实现
2024-11-09
GBDT算法Python代码实现
2024-11-03
AdaBoost算法Python代码实现
2024-10-31
近似线性可分支持向量机Python代码实现
2024-10-27
构建ID3决策树的完整算法代码
2024-10-03
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅