目标检测入门知识

目标检测入门知识

目录

目标检测入门知识

目标检测任务与描述

1.目标检测算法分类

2.目标检测的任务

3.目标定位的简单实现思路

4.两种Bounding Box名称

R-CNN

1.目标检测Overfeat模型

2. 目标检测R-CNN模型

3. 评价指标


目标检测任务与描述

1.目标检测算法分类

  • 两步走的目标检测

    1. 先找出候选的一些区域

                    2.对区域进行调整分类

  • 端到端的目标检测

    1. 采用一个 网络一步到位

    2. 输入图片,输出有哪些物体,物体在哪些位置

2.目标检测的任务

  • 输入:图片

  • 输出:物体类别,物体的位置坐标

  • (xmin,ymin),(xmax,ymax):物体的左上角、右下角坐标

3.目标定位的简单实现思路

  • 衡量网络的损失

    • 分类的概率可以使用交叉熵损失衡量
    • 位置信息具体的数值,可使用MSE均分误差损失(L2损失)

4.两种Bounding Box名称

  • Ground-truth bounding box:GT bbox 图片真实目标位置(标记结果)

  • Predicted bounding box:预测的时候标记

  • 分类与定位:图片中只有一个物体需要检测

  • 目标检测:图片中有多个物体需要检测

R-CNN

1.目标检测Overfeat模型

1.1滑动窗口

  • 目标检测的暴利方法是从左到右,从上到下滑动窗口,利用分类识别目标。

    • 为了在不同观察距离处检测不同的目标类型,我们使用不同大小和宽高比的窗口。如下所示:

注:这样就变成每张图片输出类别以及位置,变成分类问题。

但是滑动窗口需要初始设定一个固定大小的窗口,这就遇到一个问题,有些物体适应的框不一样

  • 所以需要提前设定K个窗口,每个窗口滑动提取M个,总共K x M个图片,通常直接将图像变形转换成固定大小的图像,变形图像块被输入CNN分类器中,提取特征后,我们使用一些分类器识别类别和该边界框的另一个线性回归器。

Overfeat模型总结:这种方法类似一种暴利穷举的方式,会消耗大量的计算力量,并且由于窗口大小问题可能造成效果不准确。所以下面提供另外一种解决目标检测问题的思路——R-CNN

2. 目标检测R-CNN模型

  • 不使用暴利破解的方法,而是使用候选区域方法(region proposal method),创建目标检测的区域,这改变了图像领域实现物体检测的模型思路(以R-CNN为基点,后续的SPPNet、Fast R-CNN 、Faster R-CNN模型都是照着这个物体检测思路)

  • R-CNN步骤(以AlexNet网络为基准)

    1. 找出图片可能存在目标的候选区域region proposal(默认对一张图片找出2000个候选区域)

    2. 将候选区域调整,为了适应AlexNet网络的输入图像的大小227 x 227,通过CNN对候选区域提取特征向量,2000个建议框的CNN特征组合成网络AlexNet最终输出:2000 x 4096维矩阵

    3. 将2000 x 4096维特征经过SVM分类器(20种分类,SVM是二分类器,则有20个SVM, 以前不用神经网络分类器,通常用SVM分类器),获得2000 x 20种类别矩阵

    4. 分别对2000 x 20维矩阵中进行非极大值抑制(NMS:non-maximum suppression)剔除重叠建议框,得到与目标物体评分最高的一些建议框

    5. 修正bbox,对bbox做回归微调

2.1 候选区域由Region of interest(ROI)得出

Selective Search在一张图片上提取出来约2000个候选区域需要注意的事这些候选区域的长宽不固定。而使用CNN(这里指的是AlexNet网络)提取候选区域的特征向量,需要接受固定长度的输入,所以需要对候选区域做一些尺寸上的修改。

2.2 CNN网络提取特征

在候选区域(调整过的适合AlexNet输入的大小的候选区:227 x 227)的基础上提取出更高级、更抽象的特征,这些高级特征是作为下一步的分类器、回归的输入数据

提取的这些特征将会保存在磁盘当中(这些提取的特征才是真正的要训练的数据)

2.3 特征向量的训练分类器SVM

  • 假设一张图片的2000个候选区域,那么提取出来的就是2000 x 4096这样的特征向量(R-CNN中默认CNN层输出4096特征向量)

  • R-CNN选用SVM进行二分类。假设检测20个类别,那么就会提供20个不同类别的SVM分类器,每个分类器都会对2000个候选区域的特征向量分别判断一次,这样得出[2000,20]的得分矩阵,如下图所示

2.4 非极大抑制(NMS)

  • 目的

    • 筛选候选区域,目标是一个物体只保留最优的框,来抑制那些冗余的框

  • 迭代过程

    • 对于所有的2000个候选区域得分进行概率筛选,只保留概率大于0.5的候选区域

    • 剩余的候选框

      • 假设图片的真实个数为2(N),筛选之后候选框为5(P),计算N中每个物体位置与所有P的交并比IOU计算,得到P中候选框IOU最高的一个。如下图,A、C候选框对应左边的车辆,B、D、E对应右边的车辆。粉色的框代表GT(ground truth:物体的真实标记位置),则左边A候选框跟GT交并比的分数最高为0.8,右边同理B最高为0.9。

假设现在滑动窗口有:A、B、C、D、E 5个候选框

  • 第一轮:对于右边车辆,假设B的得分最高(与GT的IOU为0.8),删除与B的IOU > 0.5候选框(D与B的IOU为0.6,E与B 的IOU为0.7),则删除D、E,B作为一个预测结果

  • 第二轮:对于左边车辆,A的得分最高,则C与A计算IOU,结果>0.5,删除C,A作为一个结果

最终在这5个中检测除了两个目标A和B,则每一个GT都有一个候选框预测

SS(Selective Search)算法得到的物体位置已经固定了,但是我们筛选出的位置不一定就是特别准确,需要对A和B进行最后的修正

2.5 修正候选框

通过非极大值抑制筛选出来的候选框不一定非常准确怎么办?R-CNN提供了一个方法,建立一个bbox regressor

  • 回归用于修正筛选后的候选区域,使之回归于ground-truth,默认认为这两个框是线性关系,应为在最后筛选出来的候选区域和ground-truth很接近了

修正过程(线性回归)

3. 评价指标

3.1 IOU交并比

  • IOU(交并比)

    • 两个区域的重叠程度overlap:候选区域和标定区域的IOU值

相交的值比较小,NMS过滤条件给的不严格

3.2 平均精确率(mean average precision)map

目标检测中衡量识别精度的指标

多个类别目标检测中,每个类别都可以根据recall(召回率)和percision(准确率)绘制一条曲线。AP就是该曲线下的面积,mAP意思是对每一类的AP再求平均

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
目标检测是指通过深度学习模型检测图像或视频中的特定目标,如行人、车辆等。ytorch是一个功能强大的深度学习库,专门用于目标检测任务。下面是关于ytorch深度学习目标检测入门到实战: 1. 深度学习基础:首先需要了解深度学习的基本概念,包括神经网络、卷积神经网络(CNN)等。可以学习相关的课程或教材,掌握深度学习的基本原理。 2. ytorch入门:学习使用ytorch进行目标检测的基本知识,包括ytorch的安装、环境配置等。可以参考ytorch官方文档或相关教程。 3. 数据准备:准备用于目标检测的数据集,包括标注好的训练集和测试集。数据集的质量对于目标检测的效果至关重要。 4. 模型训练:使用ytorch构建目标检测模型,并进行训练。可以使用预训练的模型进行迁移学习,也可以根据自己的需求设计新的模型结构。 5. 模型调优:对训练好的模型进行调优,包括参数调整、超参数优化等。 6. 模型评估:使用测试集对训练好的模型进行评估,分析模型的性能指标,并对模型进行改进。 7. 实战应用:将训练好的模型应用于实际目标检测任务中,可以是图像或视频中的目标检测。不断优化模型,提高目标检测的准确率和效率。 通过以上步骤,可以从入门到实战地学习和应用ytorch深度学习目标检测,掌握深度学习目标检测的基本原理和实践技巧,为相关领域的研究和应用提供支持。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值