Laughing-q-CSDN博客

原创 Progressive Hard-case Mining across Pyramid Levels in Object Detection论文阅读

Progressive Hard-case Mining across Pyramid Levels in Object Detection论文阅读ContributionsThe Statistical Analysis on Level Imbalance实验设置特征层级的不平衡统计Unified Multi-level Optimization ParadigmLevel-wise Resampling ParadigmProgressive Focal LossExperiments不同的检测器分析

2021-09-18 15:54:43 844

原创 YOLOX: Exceeding YOLO Series in 2021论文阅读

YOLOX: Exceeding YOLO Series in 2021论文阅读YOLOv3 baseline调整训练策略数据增强ImprovementDecouple HeadStrong data augmentationAnchor-freeMulti positiveSimOTAEnd-to-End YOLOOther BackbonesYOLOv5Tiny/Nano 检测器Model size和data augmentationSOTA比较paper：https://arxiv.org/pdf/

2021-07-20 17:04:18 1623 3

原创 Focal Self-attention for Local-Global Interactions in Vision Transformers论文阅读

Focal Self-attention for Local-Global Interactions in Vision Transformers论文阅读介绍方法Focal self-attentionWindow-wise attentionSub-window pooling.Attention computation.Complexity analysisModel configuration实验图像分类目标检测和实例分割语义分割与SOTA方法比较消融实验window sizewindow shift

2021-07-10 13:42:33 2027 1

原创 CBNetV2: A Composite Backbone Network Architecture for Object Detection论文阅读

CBNetV2: A Composite Backbone Network Architecture for Object Detection论文阅读介绍方法CBNetV2融合方式对Assistant的监督实验与SOTA的比较在主流backbone架构上的通用性与更宽更深的网络比较与可变形卷积的兼容在主流检测器上的模型适用性在Swin Transformer上的模型适用性消融实验paper：https://arxiv.org/pdf/2107.00420v2.pdfcode：https://github

2021-07-08 18:54:02 2774 2

原创 Dynamic Head: Unifying Object Detection Heads with Attentions论文阅读

Dynamic Head: Unifying Object Detection Heads with Attentions论文阅读摘要介绍相关工作方法Dynamic Head扩展到现存的检测器实验实验细节消融实验消融实验使用ResNet50作为backbone实现scale与spatial可视化Dynamic Head的深度扩展到现存的目标检测器与SOTA比较与不同的ResNe(X)t系列backbone搭配与SOTA检测器的比较与transformer backbone搭配SOTApaper:https

2021-06-17 16:12:56 4623 18

原创 You Only Learn One Representation: Unified Network for Multiple Tasks论文阅读

You Only Learn One Representation: Unified Network for Multiple Tasks论文阅读摘要介绍implicit knowledge 如何工作？Manifold space reductionKernel space alignmentMore functions统一网络中的implicit knowledgeimplicit knowledge的形成建模implicit knowledge训练推理实验实验设置FPN中的Feature alignme

2021-05-19 16:57:12 2942 5

原创 Swin Transformer: Hierarchical Vision Transformer using Shifted Windows论文阅读

Swin Transformer: Hierarchical Vision Transformer using Shifted Windows论文阅读摘要介绍相关工作方法整个架构基于self-attention的shifted window架构变种实验消融实验paper:https://arxiv.org/pdf/2103.14030v1.pdfcode: https://github.com/microsoft/Swin-Transformer摘要采用transformer来做计算机视觉任务有两个

2021-03-30 17:21:57 6076

原创 You Only Look One-level Feature论文阅读

You Only Look One-level Feature论文阅读介绍贡献慨括相关工作MiMo的cost分析方法受限制的尺度范围positive anchors的不平衡YOLOF实验与DETR的比较与YOLOV4的比较消融实验错误分析结论paper: https://arxiv.org/abs/2103.09460code: https://github.com/megvii-model/YOLOF介绍FPN通过其多尺度融合和分而治之(多个输出)，能够大大提升检测器的精度；作者将FPN看做

2021-03-24 11:48:06 933

翻译 Object Detection Made Simpler by Eliminating Heuristic NMS

Object Detection Made Simpler by Eliminating Heuristic NMS

2021-02-27 18:44:42 874 2

原创 End-to-End Object Detection with Fully Convolutional Network论文翻译

End-to-End Object Detection with Fully Convolutional Network论文翻译摘要1.介绍2.相关工作2.1 全卷积目标检测器2.2 端到端的目标检测3.方法3.1 标签分配的分析3.1.1 One-to-many标签分配3.1.2 手工设计的One-to-one标签分配3.2 我们的方法3.2.1 Prediction-aware One-to-one标签分配3.2.2 3D Max Filtering3.2.3 辅助损失4. 实验4.1 实现细节4.2

2020-12-08 18:55:29 2160 1

原创 Sparse R-CNN: End-to-End Object Detection with Learnable Proposals论文翻译

Sparse R-CNN: End-to-End Object Detection with Learnable Proposals论文翻译摘要论文地址：Sparse R-CNN: End-to-End Object Detection with Learnable Proposals代码地址：https://github.com/PeizeSun/SparseR-CNN摘要我们提出了Sparse R-CNN，一种纯稀疏的方法用于图像中的目标检测。现有的目标检测工作很大程度上依赖于密集候选目标，如在

2020-12-04 18:11:06 1458

原创 CVPR2021 Generalized Focal Loss V2论文翻译

Generalized Focal Loss V2: Learning Reliable Localization Quality Estimationfor Dense Object Detection论文翻译摘要论文地址：Generalized Focal Loss V2: Learning Reliable Localization Quality Estimationfor Dense Object Detection代码地址：https://github.com/implus/GFocalV2

2020-12-03 11:52:49 2051 5

原创 ECCV2020 TIDE: A General Toolbox for Identifying Object Detection Errors

ECCV2020 TIDE: A General Toolbox for Identifying Object Detection Errors论文翻译摘要1.介绍2.工具2.1 计算mAP2.2 定义错误类型2.3计算错误的限制3.分析3.1验证设计选择3.2 比较目标属性进行精细分析3.3 不同数据集之间的比较3.4 不可避免的误差4.结论参考论文地址：TIDE: A General Toolbox for Identifying Object Detection Errors工具代码地址：http

2020-11-20 12:00:16 3349 1

原创 CVPR2020 CSPNet: A New Backbone that can Enhance Learning Capability of CNN

CVPR2020 CSPNet: A New Backbone that can Enhance Learning Capability of CNN论文翻译摘要1.介绍2.相关工作3.方法3.1 Cross Stage Partial Network3.2 Exact Fusion Model4.实验4.1 实现细节4.2 消融实验4.3 ImageNet图像分类4.4 MS COCO目标检测4.5 分析5.结论参考文献论文地址：CSPNet: A New Backbone that can Enhan

2020-11-19 13:00:41 1801 3

原创 Scaled-YOLOv4: Scaling Cross Stage Partial Network 论文翻译

摘要实验结果表明，基于CSP方法的YOLOv4目标检测神经网络在保持最优速度和准确率的前提下，具有向上/向下可伸缩性，可用于不同大小的网络。我们提出了一种网络缩放方法，它不仅改变深度、宽度、分辨率，而且还改变网络的结构。YOLOv4-large模型实现了SOTA的结果：在Tesla V100上，以15 FPS的速度对MS COCO数据集实现了55.4% AP (73.3% AP50)，而伴随着TTA，YOLOv4-large实现了55.8% AP (73.2 AP50)。YOLOv4-tiny模型在RTX

2020-11-18 16:46:30 3861 6

翻译 CVPR2020 Few-Shot Object Detection with Attention-RPN and Multi-Relation Detector论文翻译

ECCV2020 Flow-edge Guided Video Completion20论文翻译论文地址：Few-Shot Object Detection with Attention-RPN and Multi-Relation Detector

2020-11-17 17:37:32 2280 6

原创 CVPR2020 Overcoming Classifier Imbalance for Long-tail Object Detection with Balanced Group Softmax

摘要论文地址利用基于深度学习的模型解决长尾大词汇量目标检测是一项具有挑战性和高要求的任务，但目前研究还不足。在本研究中，我们首次系统地分析了最先进的模型在长尾分布前的不足之处。我们发现，现有的检测方法在数据集严重倾斜时无法对few-shot类进行建模，这将导致分类器在参数量级上不平衡。...

2020-11-16 11:39:06 997 4

原创 AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE论文翻译

AN IMAGE IS WORTH 16X16 WORDS:TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE论文翻译摘要1.介绍2.相关工作3.方法3.1 VISION TRANSFORMER (VIT)3.2微调和更高的分辨率4.实验4.1设置4.2 与SOTA的比较4.3训练的数据需求4.4 scale研究4.5 审视VISION TRANSFORMER4.6 自监督5.结论论文地址：AN IMAGE IS WORTH 16X16 WORDS:TRANSFORME

2020-11-12 11:30:16 2952 3

原创 ECCV2020 Learning Data Augmentation Strategies for Object Detection

摘要数据增强是训练深度神经网络的重要组成部分。虽然数据增强能够显著提升图像分类的效果，但它的潜力还没有被彻底的研究对象检测。考虑到为目标检测注释图像的额外成本，数据增强可能对这个计算机视觉任务更重要。在这项工作中，我们研究了数据增强对目标检测的影响。我们首先证明了从图像分类中借鉴的数据增强操作可能有助于训练检测模型，但改进有限。因此，我们研究如何学习，专门的数据增强策略提高检测模型的泛化性能。重要的是，这些增强策略只影响训练，并在评估期间保持训练模型不变。在COCO数据集上的实验表明，优化后的数据增强策略

2020-11-11 11:16:33 1474

原创 ImportError: libnvinfer.so.6/libcublas.so.10.0: cannot open shared object file:问题解决

在ubuntu18.04下安装好cuda，pytorch，TensorRT之后：在pycharm下导包时报错：import torch报错：ImportError: libcublas.so.10.0: cannot open shared object file: No such file or directoryimport tensorrt报错：ImportError: libnvinfer.so.6: cannot open shared object file: No such fil

2020-10-28 16:41:17 1575 1

原创 ECCV2020 AABO: Adaptive Anchor Box Optimization for Object Detection via Bayesian Sub-sampling论文翻译

ECCV2020 AABO论文翻译摘要1.介绍2.相关工作3.提出的方法3.1 初步分析3.2 anchors的搜索空间优化3.3 通过子抽样的贝叶斯锚优化4.实验4.1数据集，指标和实现细节4.2 anchor优化的结果4.3 在SOTA方法上的最佳锚定设置的好处4.4 与其他优化方法的比较4.5消融研究5.结论参考论文地址：AABO: Adaptive Anchor Box Optimization for Object Detection via Bayesian Sub-sampling摘要大

2020-10-23 12:09:57 1581 5

原创 DETR与Deformable DETR小结

DETR与deformable DETR小结DETRDeformable DETRDETR论文地址https://arxiv.org/abs/2005.12872论文解读DETR将检测视为集合预测问题，简化了目标检测的整体流程。它没有现在主流的目标检测器中的anchor、label assign、nms等操作，做到了真正的end-to-end。它主要采用了Transformer的编解码结构，它在序列预测任务上大获成功。Transformer中的自注意力机制显示地界定了序列中元素间的相互作用，因此可以

2020-10-20 11:17:16 13862 2

原创 Deformable DETR论文翻译

Deformable DETR论文翻译摘要1.介绍2.相关工作3. 回顾transformer和DETR4.方法4.1 端到端目标检测中的可形变transformer4.2 DEFORMABLE DETR中额外的改进和提升5.实验5.1 与DETR的比较5.2 DEFORMABLE ATTENTION的消融实验5.3 与SOTA方法的比较6.结论论文地址：DEFORMABLE DETR: DEFORMABLE TRANSFORMERS FOR END-TO-END OBJECT DETECTION摘要

2020-10-19 18:23:51 8147 1

原创 Yolov5技术总结

Yolov5技术总结Backbone：Detection (YOLO) layer：损失函数：Yolov5-1.0、2.0、3.0：Backbone：Focus：网络第一层进行 pixel un-shuffling而不是stride=2的卷积；该模块的设计主要是减少计算量加快速度；作者原话：https://github.com/ultralytics/yolov5/issues/847Focus() module is designed for FLOPS reduction and speed

2020-09-25 16:38:47 9393 24

原创 YOLOV5 general.py注释与解析

YOLOV5 general.py注释与解析暂时只做了build_targets和compute_loss函数的注释，主要是今天正好对yolov5的边框回归方式看了一下；有时间再更新其它函数；build_targets函数中有对yolov5边框回归的详细说明，毕竟现在也没有发paper，只能通过代码自己研究，要是有错误，欢迎指正。def build_targets(p, targets, model): """ Args: p: 网络输出，List[torch.ten

2020-09-25 16:32:16 10757 35

原创 NeurIPS2020 Generalized Focal Loss论文翻译

Generalized Focal Loss论文翻译摘要1. 介绍光流边缘引导的视频补全算法论文地址：Generalized Focal Loss: Learning Qualified and Distributed Bounding Boxes for Dense Object Detection摘要one-stage检测器基本将目标检测制定为稠密分类和定位(即边框回归)。分类通常由Focal loss优化，边框定位一般用狄拉克δ函数来学习。one-stage检测器的最新趋势是引入一个单独的预测

2020-09-20 14:27:58 1892

原创 ECCV2020 Flow-edge Guided Video Completion20论文翻译

ECCV2020 Flow-edge Guided Video Completion20论文翻译摘要1.介绍光流边缘引导的视频补全算法论文地址：Flow-edge Guided Video Completion20摘要我们提出了一个新的基于光流的视频修复算法。之前的光流修复算法通常无法保持运动边界的锐度。我们的方法首先提取并完成运动边缘，然后利用运动边缘来引导具有锐边的分段光滑流补全。现有的方法在相邻帧之间的局部光流连接之间传播色彩。然而，并不是视频中所有缺失的区域都可以用这种方法进行恢复，因为运动

2020-09-14 22:11:52 3876 1

原创 ECCV2020 Piou Loss论文翻译

摘要:目标检测使用方向边界框(OBB)可以通过减少背景的重叠区域更好的检测到旋转物体。现存的方向边界框(OBB)大多数建立在横向边界框基础上，通过增加一个距离损失来做角度回归。然而基于距离损失的角度回归只能最小化角度距离，对于iou却很不敏感，它对高长宽比的对象不敏感。因此，一个新颖的损失函数Pixels-IoU (PIoU) Loss，就是设计成利用角度和IoU来进行精确的OBB回归。PIoU损失是由像素方向的IoU度量得到的，一个简单的并且适合方向边界框和横向边界框的方法。为了验证它的有效性，我们在an

2020-09-04 14:08:03 2260 1

原创 cocoapi评估u版yolo

对ultralytics的yolo系列训练好的模型采用cocoapi评估记录。获取json文件在已经有instance_val.json的基础上，我们还需要获得yolo模型预测的结果results.json，事实上源代码中有保存results.json的参数选项(–save-json)；但由于源代码获取image_id的方式(根据图片名字)仅仅适用与coco数据集，代码如下：if save_json: # [{"image_id": 42, "category_id": 18, "bbox":

2020-08-26 14:41:20 1012 7

原创 YOLOV5检测代码detect.py注释与解析

YOLOV5检测代码detect.py注释与解析检测参数以及main函数解析detect函数解析本文主要对ultralytics\yolov5-v2.0版本的测试代码detect.py的解析，现在v5已经更新了-v3.0版本, 但该代码部分基本上不会有很大的改动，故以下注释与解析都是适用的；当然如果有大改动，笔者也会更新注释。检测参数以及main函数解析if __name__ == '__main__': """ weights:训练的权重 source:测试数据，可以是图片/

2020-08-19 10:11:54 66181 416

原创 FairMOT论文解读

FairMOTFairMOTFairMOT介绍Two-step方法One-shot方法The Technical ApproachbackboneDetection BranchHeatmap HeadCenter Offset HeadBox Size HeadIdentity Embedding BranchLoss FunctionsHeatmap LossOffset and Size LossIdentity Embedding LossOnline TrackingNetwork Inferen

2020-08-07 17:12:26 5000

原创 YOLOV5网络结构

YOLOV5网络结构github代码地址:ultralytics\yolov5，v5还在开发当中，目前的网络结构如下图，要是网络结构有更新，笔者也会更新结构图。下图括号中四个数字代表：(输入通道、输出通道、卷积核大小、步长)；两个数字代表：(输入通道、输出通道)；一个数字代表：(输出通道)；且上采样是采用nearst插值，两倍上采样；x N表示堆叠此模块N次。yolov5网络结构图至于Focus的部分附上代码帮助理解：def forward(self, x): # x(b,c,w,h)

2020-07-22 14:08:57 76591 166

原创 YOLOV5代码解析(更新中)

YOLOV5专栏train.pytest.pydataset.py detect.py utils.py torch_utils.py common.py yolo.py

2020-07-20 15:48:33 56283 52

原创 YOLOV5测试代码test.py注释与解析

YOLOV5测试代码test.py注释与解析测试参数以及main函数解析test函数解析本文主要对ultralytics\yolov5的训练代码train.py的解析，由于yolov5还在开发当中，平常多多少少都会修复一些bug或者有一些代码和功能的更新，但基本上不会有很大的改动，故以下注释与解析都是适用的；当然如果有大改动，笔者也会更新注释。测试参数以及main函数解析if __name__ == '__main__': """ opt参数详解 weights:测试的模型权重

2020-07-20 15:38:55 30949 192

原创 YOLOV5训练代码train.py注释与解析

YOLOV5训练代码train.py注释与解析训练参数以及main函数解析train函数解析本文主要对ultralytics\yolov5的训练代码train.py的解析，由于yolov5还在开发当中，平常多多少少都会修复一些bug或者有一些代码和功能的更新，但基本上不会有很大的改动，故以下注释与解析都是适用的；当然如果有大改动，笔者也会更新注释。训练参数以及main函数解析训练的时候可以设置进行超参数进化算法(默认不使用)。值得一提的是，由于现在yolov5还在开发当中，训练文件的–resume还

2020-07-20 15:28:33 80293 170

原创 YOLOV5dataset.py代码注释与解析

YOLOV5训练时数据加载模块代码注释与解析本文主要对ultralytics\yolov5在训练时的数据加载模块的dataset.py代码进行注释和解析。当然dataset.py中还有其他时候(例如detect时)所用到的加载方法(例如LoadImages、LoadWebcam等)，本文主要是对训练时用到的LoadImagesAndLabels类的相关注释。import globimport mathimport osimport randomimport shutilimport time

2020-07-15 16:40:23 22608 87

原创 DetectoRS论文解读

DetectoRSDetectoRSIntroduceRecursive Feature PyramidFeature Pyramid NetworksRecursive Feature Pyramidbackbone输入的不同RFP中的特征提取特征融合模块Switchable Atrous ConvolutionAtrous ConvolutionSwitchable Atrous ConvolutionGlobal Context插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定

2020-06-09 12:30:59 4190 1

原创 YOLOV4-Mosaic数据增强详解

Mosaic数据增强Mosaic数据增强方法是YOLOV4论文中提出来的，主要思想是将四张图片进行随机裁剪，再拼接到一张图上作为训练数据。这样做的好处是丰富了图片的背景，并且四张图片拼接在一起变相地提高了batch_size，在进行batch normalization的时候也会计算四张图片，所以对本身batch_size不是很依赖，单块GPU就可以训练YOLOV4。以下是我根据pytorch YOLOV4的代码对Mosaic数据增强进行的整理。图1部分代码展示：oh, ow, oc = img

2020-05-27 20:49:22 18574 18

原创 EfficientDet详解

EfficientDetEfficientDet是google在2019年11月发表的一个目标检测算法系列，分别包含了从D0~D7总共八个算法，对于不同的设备限制，能给到SOTA的结果，在广泛的资源约束下始终比现有技术获得更好的效率。特别是在单模型和单尺度的情况下，EfficientDet-D7在COCO测试设备上达到了最先进的52.2AP，具有52M参数和325B FLOPs，相比与之前的算法，参数量缩小了4到9倍，FLOPs缩小了13到42倍。首先，google提出了一种加权双向特征金字塔网络（Bi

2020-05-24 19:37:13 12365 2

原创 EfficientNet详解

EfficientNetsEfficientNetsNAS（neural architecture search）Single ScalingCompound ScalingEfficientNetsEfficientNets是google在2019年5月发表的一个网络系列，使用神经架构搜索设计了一个baseline网络，并且将模型放大获得一系列模型。它的精度和效率比之前所有的卷积网络都好。尤其是EfficientNet-B7在ImageNet上获得了最先进的 84.4%的top-1精度和 97.1%

2020-05-24 17:37:30 10586

空空如也

空空如也