![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
目标检测从基础到实践--系列论文讲解
文章平均质量分 54
本专栏是笔者在研究学习中的笔记,其内容丰富,包括两阶段、单阶段、无锚框目标检测算法;理论实践相联系,从网络设计到代码实现,从算法分析到编程方法,以及模型部署与应用这里都有详细的记录。
Gallant Hu
计算机视觉 机器学习 深度学习
展开
-
YOLOv8和General Focal Loss中的分支合并深度解析--从原理到实现
YOLOv5在工业界应用很多,也激发了人们对它的各种修改。但是,笔者看到的各类开源的YOLOv5修改版没有对检测头进行重新设计,比如采用流行的Anchor-Free的思想,也没有对Objectness分支进行修改。而这两点对于提高目标检测的召回率有着可解释的意义,简单的说,采用无锚框的做法可适应的目标范围更广,合并Objectness分支避免了去掉有价值的低质量预测框。YOLOv8对这两点进行了设计并采用了General Focal Loss的损失函数,笔者认为这两点为YOLOv8的涨点做出了贡献。原创 2023-02-14 11:08:26 · 300 阅读 · 0 评论 -
从YOLOv1到FCOS无锚框目标检测算法的发展
YOLOv1 只使用目标中心周围的点,因此召回率低。The most popular anchor-free detector might be YOLOv1 [21]. Instead of using anchor boxes, YOLOv1 predicts bounding boxes at points near the center of objects. Only the points near the center are used since they are considered to原创 2020-11-06 22:25:54 · 941 阅读 · 0 评论 -
Transformer 的通用建模能力
像素-像素,物体-像素和物体-物体的关系建模。此前,前两种关系建模主要是分别由卷积和 RoIAlign 来实现的,最后一种关系通常没有很好的建模方法。但是,Transformer 中的注意力单元因其通用的建模能力,可以被应用到所有这些基本关系的建模中。一方面 Transformer 可以看作是一种图建模方法。图是全连接的,节点之间的关系通过数据驱动的方式来学习得到。由于任意概念(无论具体或抽象)都可以用图中的节点来表示,且概念之间的关系可以用图上的边来刻画,因此 Transformer 建模具有很强的通原创 2022-01-14 15:41:11 · 1803 阅读 · 0 评论 -
Swin Transformer 不重叠窗口
Swin Transformer 的主要思想是将具有很强建模能力的 Transformer 结构和重要的视觉信号先验结合起来。这些先验具有层次性(Hierarchy)、局部性(locality)以及平移不变性的特点(translation invariance)。Swin Transformer 的一个重要设计是移位的不重叠窗口(shifted windows),不同于传统的滑动窗,不重叠窗口的设计对硬件实现更加友好,从而具有更快的实际运行速度。...原创 2022-01-14 15:26:31 · 1797 阅读 · 0 评论 -
使用神经网络架构搜索设计轻量级模型
资料来源飞浆课程,仅供学习,侵删原创 2020-12-02 16:20:18 · 137 阅读 · 0 评论 -
mAP的计算原理与实现(Object Detection Metrics)
AP(Average Precision)计算方法为PR曲线下覆盖的面积。Precision与Recall数据的取值范围都在0~1之间,以Recall为X轴、以Precision为Y轴可以绘制PR曲线。由于计算积分相对困难,因此引入插值法计算。所有类别的AP进行平均,得到的为mAP(mean Average Precision)。...原创 2020-08-17 20:30:52 · 854 阅读 · 0 评论 -
预训练Scale Match
For dataset X, we define the probability density function of objects’ size s in X as Psize(s;X). Then we define a scale transform T, which is used to transform the probabilitydistribution of objects’ size in extra dataset E to that in the targeted dataset原创 2021-03-24 12:59:00 · 261 阅读 · 0 评论 -
常见显卡性能对比
原创 2021-03-19 09:52:37 · 803 阅读 · 0 评论 -
YOLOv4之对YOLOv3的优化
YOLOv4的性能原创 2021-03-18 22:42:53 · 868 阅读 · 0 评论 -
骨干网络对比-EfficientNet-Lite
训练后量化使用 Relu6替代swish 激活函数,swish激活复杂度高,并且对量化有不利影响。Efficientnet Architecture模型扩展的有效性在很大程度上依赖于baseline网络。为了进一步提高性能,作者还开发了一个新的基线网络,通过使用 AutoML MNAS 框架执行神经结构搜索,优化了准确性和效率。 最终的架构使用移动反向bottleneck卷积(MBConv) ,类似于 mobileenetv2和 MnasNet。作者系统的研究了网络深度(Depth)、宽度(..原创 2021-03-18 22:39:27 · 1920 阅读 · 0 评论 -
YOLOv4-yiny 消融实验
We design an experiment to show how flexible can be if one uses CSPNet with partial functions in computational blocks. We also compare with CSPDarknet53, in which we perform linear scaling down on width and depth.原创 2021-03-17 20:11:51 · 726 阅读 · 0 评论 -
YOLOv3的多尺度检测
YOLOv3的网络结构多尺度检测YOLOv3通过聚类的方法得到9种尺度的anchor,将9种尺度的anchor box均匀的分配给3种尺度的特征图。实现了多尺度检测。YOLOv3-Tiny在YOLOv3的基础上去掉了一些特征层,只保留了2个独立预测分支,如下图所示。...原创 2021-03-15 11:21:54 · 2556 阅读 · 0 评论 -
图解转置卷积
Transposed Convolution图1和图2所示的例子是我们直观认识的转置卷积。但为了泛化其应用,了解其可以如何通过计算机的矩阵乘法实现是有益的。从这一点上我们也可以看到为何“转置卷积”才是合适的名称。图1 将2∗22*22∗2的输入上采样成4∗44*44∗4的输出图2 将2∗22*22∗2的输入上采样成5∗55*55∗5的输出在卷积中,我们定义 C 为卷积核,Large 为...原创 2019-12-07 15:52:39 · 139 阅读 · 0 评论 -
全卷积神经网络再学习
From classifier to segmentationFully convolutional indicates that the neural network is composed of convolutional layers without any fully-connected layers or MLP usually found at the end of the netw...原创 2019-12-27 14:32:15 · 277 阅读 · 0 评论 -
从交叉熵损失函数到Focal loss
In contrast, one-stage detectors that are applied over a regular, dense sampling of possible object locations have the potential to be faster and simpler, but have trailed the accuracy of two-stage detectors thus far.In this paper, we investigate why this原创 2020-08-25 16:49:12 · 358 阅读 · 0 评论 -
从 Irwin Sobel 的Sobel算子到福岛邦彦的neocognitron(1970-1980 卷积神经网络的启发)
Sobel算子的滤波核neocognition的构筑与特征可视化原创 2020-08-30 11:11:29 · 796 阅读 · 0 评论 -
FPN自底向上的通路增强
Our framework is illustrated in Figure 1. Path augmentation and aggregation are conducted for improving performance. A bottom-up path is augmented to make low-layer information easier to propagate. We design adaptive feature pooling to allow each proposal.原创 2021-03-09 08:19:13 · 313 阅读 · 1 评论 -
权值量化与霍夫曼编码
参考文献[1] Han S, Mao H, Dally W J, et al. Deep Compression: Compressing Deep Neural Networks with Pruning, Trained Quantization and Huffman Coding[C]. international conference on learning representatio...原创 2019-12-07 19:36:24 · 777 阅读 · 0 评论 -
无锚框(anchor-free)目标检测算法介绍
By detecting objects as paired keypoints, we eliminate the need for designing a set of anchor boxes commonly used in prior single-stage detectors. ---- CornerNet :Detecting Objects as Paired keypointsWe hypothesize two reasons why detecting co.原创 2020-08-24 20:47:08 · 7307 阅读 · 0 评论 -
空间金字塔池化让CNN可接受不同尺寸的特征图
从SPP-Net谈起there have been two popular ways for multi-scale predictions. The first way is based on image/feature pyramids, e.g., in DPM[*] and CNN-based methods. The images are resized at multiple scales, and feature maps are computed for each scale(Figure原创 2020-08-21 10:29:02 · 744 阅读 · 0 评论 -
小目标检测难点分析与解决方案
相对于原图比例的定义小目标检测的场景Anchor 自适应算法差分进化算法超参优化算法BML自动超参搜索极端高宽比的案例----货架挡板的检测小目标数据增广目标尺度分布不均衡,小目标样本稀缺,漏检率高。...原创 2021-02-04 21:36:47 · 2307 阅读 · 1 评论 -
目标检测技术的发展与检测器通用框架
原创 2021-02-01 17:40:14 · 170 阅读 · 0 评论 -
FPN的改进----引入融合因子(fusion factor)提升对小目标的检测能力
原文链接:Effective Fusion Factor in FPN for Tiny Object Detection本文提出了一种新的概念:融合因子(fusion factor),以控制深层传递到浅层的信息,以使FPN适应小目标的检测,实验证明,在小目标检测数据集上(如TinyPerson)性能提升明显。动机An intuitive question arises: why current FPN-based detectors unfit tiny object detection and原创 2021-01-30 22:19:28 · 4962 阅读 · 1 评论 -
从RetinaNet到FCOS----以代码视角考虑
回归分类原创 2021-01-22 20:28:36 · 489 阅读 · 0 评论 -
残差注意力网络原理与应用分析
Attention not only serves to select a focused location but also enhances different representations of objects at that location.Recent advances of image classification focus on training feedforward convolutional neural networks using “very deep” structure.原创 2021-01-13 19:36:34 · 3021 阅读 · 0 评论 -
堆叠沙漏网络模型分析
标题原创 2021-01-13 10:08:22 · 1210 阅读 · 0 评论 -
DSSD解卷积单阶段检测器核心思想解析与实践
引言卷积神经网络在结构上存在固有的问题,高层网络感受野比较大,语义信息表征能力强,但是特征图分辨率低,几何细节信息表征能力弱。低层网络感受野比较小,几何细节信息表征能力强,分辨率高,但语义信息表征能力弱。SSD采用多尺度的特征图来预测物体,使用具有较大感受野的高层特征信息预测大物体,具有较小感受野的低层特征信息预测小物体。这样就带来一个问题:使用的低层网络的特征信息预测小物体时,由于缺乏高层语义特征,导致SSD对于小物体的检测效果较差。而解决这个问题的思路就是对高层语意信息和低层细节信息进行融合。T原创 2021-01-09 10:48:35 · 232 阅读 · 0 评论 -
小模型的产出
原创 2020-12-31 22:10:33 · 168 阅读 · 1 评论 -
Beyond Skip Connections -- TDM 特征融合模块设计思想
Top-down 的神经生物学基础In the human visual pathway, once receptive field properties are tuned using feedforward processing,top-down modulations are evoked by feedback and horizontal connections.These connections modulate representations at multiple levels and原创 2020-12-31 22:09:34 · 321 阅读 · 0 评论 -
基于深度学习的目标检测算法总结
原创 2020-12-31 17:24:34 · 197 阅读 · 0 评论 -
模型部署--资源受限条件下模型的优化
原创 2020-12-31 17:23:48 · 446 阅读 · 1 评论 -
深入理解多通道卷积
深入理解多通道卷积原创 2019-11-07 20:59:12 · 1344 阅读 · 0 评论 -
图解分组卷积
图解分组卷积原创 2019-11-11 20:02:48 · 626 阅读 · 0 评论 -
SSD目标检测中的多尺度分析
SSD目标检测中的多尺度分析SSD 同时使用多个卷积层的输出来做分类和位置回归:SSD网络模型同时进行分类和回归SSD算法直接预测目标的坐标和类别,没有生成候选框的过程。网络直接在VGG16网络的基础上进行修改。SSD网络=基础网络+辅助结构SSD网络结构基础网络:VGG16(阶段1~阶段5)辅助结构:fc6,fc7 àconv6,conv7添加4个卷积层(conv6_2,...原创 2019-11-12 13:57:46 · 1516 阅读 · 0 评论 -
Region Proposal Networks (区域候选网络)详解
候选区域如何生成These proposals can be generated by some heuristics search,selective search, or by a region proposal network (RPN).那么RPN有哪些优点呢?RPN的优点1.服务于整体的检测网络,使整个网络统一、简单、实现端到端训练。Faster R-CNN is a single, unified network for object detection. The RPN module原创 2020-08-20 11:26:18 · 1445 阅读 · 0 评论 -
目标检测中的多尺度分析--特征金字塔网络
单一图像/特征尺度的目标检测Recent and more accurate detection methods like Fast R-CNN and Faster R-CNN advocate using features computed from a single scale, because it offers a good trade-off between accuracy and speed. Multi-scale detection, however, still performs b原创 2020-08-25 10:28:40 · 384 阅读 · 0 评论 -
FCOS中基于FPN的多尺度预测--FCOSHead
For FCOS, at the first glance one may think that the BPR can be much lower than anchor-based detectors because it is impossible to recall an object which no location on the final feature maps encodes due to a large stride. Here, we empirically show that e.原创 2020-11-18 11:42:38 · 487 阅读 · 0 评论 -
Faster R-CNN 第二阶段设计细节
生成proposals: 解码与过滤正负样本比例为 1:3,真实框也可能参与正样本采样。原创 2020-11-26 18:26:03 · 214 阅读 · 0 评论 -
Faster R-CNN + FPN 实现目标检测
FPN目标检测实现方法在骨干网络之后增加FPN网络,此时输出的是多个特征图。FPN结构下的RPN网络多个特征图多个head预测不同尺度上的候选框,多个head之间权重共享。RoI映射到特征图上抽取特征。...原创 2020-11-27 11:11:24 · 2140 阅读 · 1 评论 -
图像处理中Non-local 的对比理解
non-local operations在计算某个位置的响应时,是考虑所有位置features的加权——所有位置可以是空间的,时间的,时空的。本文只考虑图像中空间的non-local。convolution和recurrent都是对局部区域进行的操作,所以它们是典型的local operations。受计算机视觉中经典的非局部均值(non-local means)的启发,本文提出一种non-local operations用于捕获长距离依赖(long-range dependencies),即如原创 2020-12-01 17:08:58 · 1679 阅读 · 0 评论