深度学习-目标检测学习笔记

一:基础知识

1.目标检测常见指标

2.目标检测前言

3.知识补充

什么是非极大值抑制剔除重叠建议框?

什么是Rol(Region of Interest)感兴趣区域?

在目标检测中,感兴趣区域(Region of Interest,RoI)是指在整个图像中被认为可能包含目标的区域。为了提高检测效率,很多目标检测方法采用了两阶段的策略。第一阶段通常是生成一组候选框(通常称为候选区域或建议区域),第二阶段则对这些候选框进行分类和精细调整,以确定最终的目标框。

一些常见的区域提议方法包括:

  1. 选择性搜索(Selective Search): 通过在图像中的不同尺度和颜色空间上运行启发式搜索算法,选择性搜索生成一组可能的候选区域。

  2. EdgeBoxes: EdgeBoxes是一种基于图像边缘信息的区域提议方法,它考虑到目标通常在图像中有明显的边缘。

  3. RPN(Region Proposal Network): RPN是一种基于深度学习的区域提议网络,可以端到端地学习生成候选区域。

这些方法生成的候选区域通常被称为感兴趣区域(RoI),它们在目标检测任务中起到了筛选出可能包含目标的区域的作用。在后续的处理中,这些感兴趣区域将被用来提取特征并进行目标分类和边界框回归。

什么是BN(Batch Normalization)?

神经网络中BN层的原理与作用_神经网络bn-CSDN博客

BN层的基本思想其实相当直观:因为深层神经网络在做非线性变换前的输入值(就是那个y=Wx+B,x是输入)随着网络深度加深或者在训练过程中,其分布逐渐发生偏移或者变动,之所以训练收敛慢,一般是整体分布逐渐往非线性函数的取值区间的上下限两端靠近,所以这导致反向传播时低层神经网络的梯度消失,这是训练深层神经网络收敛越来越慢的本质原因,而BN就是通过一定的规范化手段,把每层神经网络任意神经元这个输入值的分布强行拉回到均值为0方差为1的标准正态分布,其实就是把越来越偏的分布强制拉回比较标准的分布,这样使得激活输入值落在非线性函数对输入比较敏感的区域,网络的输出就不会很大,可以得到比较大的梯度,避免梯度消失问题产生,而且梯度变大意味着学习收敛速度快,能大大加快训练速度。
 

什么是正负样本?

在这里红色的anchor box是负样本,没有匹配到目标;黄色的anchor box是正样本,成功匹配到了目标。

学习源码的步骤应该是怎样的?

可以主要关注三大部分:网络的搭建、图像的预处理和损失函数的计算。

二:二阶段目标检测

1.R-CNN



注:其中SVM分类器和边界框回归器的参数是通过训练得到的。

2.FastRCNN

对整体图像提取特征,而不再是对每个候选区域提取特征。

将每个候选区域经过CNN网络提取到的对应的特征矩阵,缩放到7×7小大,因此不再限制输入图像的尺寸。

 

将缩放后的特征图经过一系列全连接层送入分类器和边界框回归器。

3.FasterRCNN

注:在滑动窗口每滑动到一个地方,会给出k个anchor box,原因是,每个目标的尺寸大小是不一样的,因此给出一系列的anchor box来预测目标的尺寸和位置。

三:一阶段目标检测

1.SSD

 每个特征图中会采用(c+4)×k个3×3的卷积核来进行预测,其中c×k个卷积核用来预测每个deflaut box对应的类别分数,4×k个卷积核用来预测边每个deflaue box 的边界框回归参数。k指边界框的数量,c指目标的类别数量(包括背景+1)。

2.YOLO v1

 

2.YOLO v2

3.YOLO v3

YOLO v3网络结构分析_yolov3网络结构-CSDN博客

以下网络结构图引用来自B站up主:霹雳吧啦Wz。

   

 

4.YOLO v3 SPP

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Jiqiang_z

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值