- 博客(24)
- 收藏
- 关注
原创 Yolo-World在自定义数据集上进行闭集词汇训练推理过程(二)——使用ultralytics库训练模型
基于ultralytics库本地训练和推理yolo-world的方法
2024-07-22 17:36:31 1703 5
原创 Yolo-World中的“推理阶段的优化”等问题记录
在阅读完yolo-world论文之后还存在一些问题,比如推理阶段的优化,prompt-then-detect范式,在线词汇表训练,离线词汇表推理,零样本评估,查阅相关资料后做此记录。
2024-07-21 17:18:06 929
原创 Yolo-World网络模型结构及原理分析(三)——RepVL-PAN
RepVL-PAN(Re-parameterizable Vision-Language Path Aggregation Network)是YOLO-World中的一个核心网络结构,它通过融合视觉信息和语言信息来提升目标检测的性能。
2024-07-20 16:12:29 897
原创 Yolo-World网络模型结构及原理分析(一)——YOLO检测器
本文主要对开放词汇检测模型yolo-world的模型结构进行分析,研究模型具体的工作流程
2024-07-18 10:19:57 2175
原创 Yolo-Word论文精读
YOLO-World介绍:为了克服这一限制,作者提出了YOLO-World,这是一种新的方法,它通过视觉-语言建模和在大规模数据集上的预训练,增强了YOLO的开放词汇(open-vocabulary)检测能力。图表中圆圈的大小代表了模型的大小。尽管一些方法通过区域-文本匹配统一了检测数据集和图像-文本数据集,并通过大规模图像-文本对进行预训练,从而取得了有希望的性能和泛化能力,但这些方法通常使用重型检测器,如ATSS或DINO,这些检测器以Swin-L作为骨干网络,导致计算需求高和部署挑战。
2024-04-30 23:23:50 929
原创 yolo--v5相关内容介绍
Bottleneck 结构通常与残差连接一起使用,但在 YOLOv5 中,残差连接的使用有所变化,Backbone 中的 Bottleneck 默认使用残差连接,而在 Head 中的 Bottleneck 不使用残差连接。CSP 结构的核心思想是将网络的层级结构进行分割和重组,以提高特征的流通性和网络的训练效率。在 YOLOv5 的早期版本中,Focus 模块被用作网络的第一层,直接处理输入图像,但在后续版本中,它被移除,取而代之的是标准的卷积层。这使得网络能够提取更细粒度的特征,同时保持稳定的训练过程。
2024-04-14 18:44:12 2543
原创 fasterRCNN论文精读及问题整理
He等人[18]通过其他与Faster R-CNN正交的改进,获得了单个模型在COCO 2015测试-验证集上的55.7%/34.9%的结果,以及集成结果的59.0%/37.4%,赢得了COCO 2015目标检测竞赛的第一名。在重新缩放的图像上,无论是ZF(Zeiler and Fergus)模型还是VGG模型,在最后一个卷积层上的总步长为16像素,这意味着在典型的PASCAL图像(约500×375像素)上,步长约为10像素。图的左侧展示了RPN的示意图,它作为一个小型网络,作用在较大的卷积特征图上。
2024-04-14 18:43:13 891
原创 fast-RCNN论文精读及问题整理
位置损失用于优化预测的边界框位置。在Fast R-CNN的训练中,使用随机梯度下降(SGD)以分层的方式采样小批量数据,首先采样N个图像,然后从每个图像中采样R/N个RoI。与R-CNN相比,Fast R-CNN达到了66%的mAP,而R-CNN的mAP为62%。传统的目标检测方法,如R-CNN和SPPnet,在训练过程中需要将提取的特征写入磁盘,以便于后续的分类和回归任务。Fast R-CNN通过在训练过程中共享计算和内存,避免了这种磁盘I/O操作,从而减少了对存储的需求,并提高了训练效率。
2024-04-11 20:51:45 1104
原创 yolo--v4论文精读及问题整理
目标检测的挑战:摘要提到,目标检测领域存在大量声称能提高卷积神经网络(CNN)准确性的特性。然而,这些特性需要在大型数据集上进行实际测试,并且需要理论上的证明来支持测试结果。通用特性的假设:作者假设了一些通用特性,这些特性适用于大多数模型、任务和数据集。这些特性包括加权残差连接(WRC)、跨阶段部分连接(CSP)、跨小批量归一化(CmBN)、自对抗训练(SAT)和Mish激活函数等。新特性的使用:
2024-03-27 20:34:49 680
原创 yolo--v3相对于yolo--v2有哪些改进?
骨干网络的改进:锚点框的优化:多尺度预测:空间金字塔池化的改进:损失函数的调整:训练策略的改进:网络结构的优化:性能提升:
2024-03-27 14:49:36 419
原创 yolo--v3论文精读及核心问题整理
例如,在COCO数据集上,每个尺度上预测3个边界框,因此张量的形状为N × N × [3 × (4 + 1 + 80)],其中4表示边界框偏移量,1表示目标性预测,80表示80个类别预测。YOLOv3是YOLO系列的第三个版本,它在保持前一个版本优点的基础上,通过细节上的优化实现了更好的性能。Darknet-53结合了3×3和1×1的卷积层,并引入了残差连接(shortcut connections),这些连接允许网络中的梯度直接流过一些层,从而缓解了深度网络训练中的梯度消失问题。
2024-03-27 14:43:49 769
原创 YOLO-v2相对于YOLO v1做了哪些改进?
这些改进使得YOLOv2在速度、准确性和召回率方面都超越了YOLOv1,使其成为了一个更加强大和灵活的实时对象检测系统。
2024-03-21 18:07:50 350
原创 YOLO--v2论文精读
YOLO–v2摘要:论文的摘要部分介绍了YOLO9000,这是一个最新的实时对象检测系统,能够检测超过9000个对象类别。以下是对摘要部分的详细解释:YOLO9000的介绍:YOLO检测方法的改进:多尺度训练方法:对象检测与分类的联合训练:验证方法:总结:摘要部分强调了YOLO9000的主要贡献和特点,即其实时检测能力、处理大量对象类别的能力,以及通过联合训练提高检测和分类性能的能力。这些特点使得YOLO9000在对象检测领域具有重要的应用潜力。1.introduction对象检测的重要性:现有检测方法
2024-03-21 18:06:49 834
原创 yolo---v1论文精读
为了使模型更关注于包含对象的网格单元,引入了两个参数λcoord和λnoobj来调整损失,其中λcoord用于增加边界框坐标预测的权重,λnoobj用于减少不包含对象的网格单元中置信度预测的权重。训练和测试参数的一致性:尽管Fast YOLO的网络结构更简单,但它在训练和测试过程中使用的参数与原始的YOLO模型完全相同。最终的预测是一个7×7×30的张量。Fast YOLO的设计理念:Fast YOLO是YOLO的一个快速版本,它的设计目标是在保持较高检测精度的同时,大幅度提高目标检测的速度。
2024-03-19 11:22:17 824
原创 overfeat论文精读及一些核心问题
负样本的处理: 在传统的训练方法中,负样本(即背景样本)最初是随机选取的,然后在后续的训练迭代中,根据错误预测的结果,将最有问题的负样本加入到训练集中。在竞赛之后,作者通过更长时间的训练和使用上下文信息(即每个尺度也使用较低分辨率的尺度作为输入)进一步提高了性能,达到了24.3%的mAP,这是一个新的检测最佳状态。与其他方法的比较: 作者比较了他们的方法和其他参赛团队的方法。论文中的这些描述展示了一种系统性的方法,通过在网络的多个层次上处理图像,并在最终决策中整合这些层次的信息,来增强特征图的分辨率。
2024-03-14 11:42:07 879
原创 django反向迁移mysql数据库的数据表
python manage.py inspectdb > ./ticket_app/models.pypython manage.py inspectdb > ./APP名称/models.py
2022-01-18 22:43:12 825
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人