Yolo-World中的“推理阶段的优化”等问题记录 在阅读完yolo-world论文之后还存在一些问题,比如推理阶段的优化,prompt-then-detect范式,在线词汇表训练,离线词汇表推理,零样本评估,查阅相关资料后做此记录。
Yolo-World网络模型结构及原理分析(三)——RepVL-PAN RepVL-PAN(Re-parameterizable Vision-Language Path Aggregation Network)是YOLO-World中的一个核心网络结构,它通过融合视觉信息和语言信息来提升目标检测的性能。
Yolo-Word论文精读 YOLO-World介绍:为了克服这一限制,作者提出了YOLO-World,这是一种新的方法,它通过视觉-语言建模和在大规模数据集上的预训练,增强了YOLO的开放词汇(open-vocabulary)检测能力。图表中圆圈的大小代表了模型的大小。尽管一些方法通过区域-文本匹配统一了检测数据集和图像-文本数据集,并通过大规模图像-文本对进行预训练,从而取得了有希望的性能和泛化能力,但这些方法通常使用重型检测器,如ATSS或DINO,这些检测器以Swin-L作为骨干网络,导致计算需求高和部署挑战。
yolo--v5相关内容介绍 Bottleneck 结构通常与残差连接一起使用,但在 YOLOv5 中,残差连接的使用有所变化,Backbone 中的 Bottleneck 默认使用残差连接,而在 Head 中的 Bottleneck 不使用残差连接。CSP 结构的核心思想是将网络的层级结构进行分割和重组,以提高特征的流通性和网络的训练效率。在 YOLOv5 的早期版本中,Focus 模块被用作网络的第一层,直接处理输入图像,但在后续版本中,它被移除,取而代之的是标准的卷积层。这使得网络能够提取更细粒度的特征,同时保持稳定的训练过程。
fasterRCNN论文精读及问题整理 He等人[18]通过其他与Faster R-CNN正交的改进,获得了单个模型在COCO 2015测试-验证集上的55.7%/34.9%的结果,以及集成结果的59.0%/37.4%,赢得了COCO 2015目标检测竞赛的第一名。在重新缩放的图像上,无论是ZF(Zeiler and Fergus)模型还是VGG模型,在最后一个卷积层上的总步长为16像素,这意味着在典型的PASCAL图像(约500×375像素)上,步长约为10像素。图的左侧展示了RPN的示意图,它作为一个小型网络,作用在较大的卷积特征图上。
fast-RCNN论文精读及问题整理 位置损失用于优化预测的边界框位置。在Fast R-CNN的训练中,使用随机梯度下降(SGD)以分层的方式采样小批量数据,首先采样N个图像,然后从每个图像中采样R/N个RoI。与R-CNN相比,Fast R-CNN达到了66%的mAP,而R-CNN的mAP为62%。传统的目标检测方法,如R-CNN和SPPnet,在训练过程中需要将提取的特征写入磁盘,以便于后续的分类和回归任务。Fast R-CNN通过在训练过程中共享计算和内存,避免了这种磁盘I/O操作,从而减少了对存储的需求,并提高了训练效率。
yolo--v4论文精读及问题整理 目标检测的挑战:摘要提到,目标检测领域存在大量声称能提高卷积神经网络(CNN)准确性的特性。然而,这些特性需要在大型数据集上进行实际测试,并且需要理论上的证明来支持测试结果。通用特性的假设:作者假设了一些通用特性,这些特性适用于大多数模型、任务和数据集。这些特性包括加权残差连接(WRC)、跨阶段部分连接(CSP)、跨小批量归一化(CmBN)、自对抗训练(SAT)和Mish激活函数等。新特性的使用:
yolo--v3论文精读及核心问题整理 例如,在COCO数据集上,每个尺度上预测3个边界框,因此张量的形状为N × N × [3 × (4 + 1 + 80)],其中4表示边界框偏移量,1表示目标性预测,80表示80个类别预测。YOLOv3是YOLO系列的第三个版本,它在保持前一个版本优点的基础上,通过细节上的优化实现了更好的性能。Darknet-53结合了3×3和1×1的卷积层,并引入了残差连接(shortcut connections),这些连接允许网络中的梯度直接流过一些层,从而缓解了深度网络训练中的梯度消失问题。
YOLO--v2论文精读 YOLO–v2摘要:论文的摘要部分介绍了YOLO9000,这是一个最新的实时对象检测系统,能够检测超过9000个对象类别。以下是对摘要部分的详细解释:YOLO9000的介绍:YOLO检测方法的改进:多尺度训练方法:对象检测与分类的联合训练:验证方法:总结:摘要部分强调了YOLO9000的主要贡献和特点,即其实时检测能力、处理大量对象类别的能力,以及通过联合训练提高检测和分类性能的能力。这些特点使得YOLO9000在对象检测领域具有重要的应用潜力。1.introduction对象检测的重要性:现有检测方法
yolo---v1论文精读 为了使模型更关注于包含对象的网格单元,引入了两个参数λcoord和λnoobj来调整损失,其中λcoord用于增加边界框坐标预测的权重,λnoobj用于减少不包含对象的网格单元中置信度预测的权重。训练和测试参数的一致性:尽管Fast YOLO的网络结构更简单,但它在训练和测试过程中使用的参数与原始的YOLO模型完全相同。最终的预测是一个7×7×30的张量。Fast YOLO的设计理念:Fast YOLO是YOLO的一个快速版本,它的设计目标是在保持较高检测精度的同时,大幅度提高目标检测的速度。