神经网络与深度学习第四周学习总结

目录

第一章、数据集与评价指标

        1.4  算法评估

第二章 、目标检测与YOLO

第三章、目标检测的实现


第六部分,深度学习视觉应用

第一章、数据集与评价指标

        1.4  算法评估

在算法评估中:

        TP是指被正确地划分为正例的个数

        FP是指被错误地划分为正例的个数

        FN是指诶错误的划分为负例的个数 

        TN是指被正确地划分为负例的个数

        P(精确率):TP/(TP +FP)

        R(召回率):TP/(TP+FN),其中召回率越高,准确度越低

可以使用P- R曲线里来表示召回率和准确率 之间的关系:

 

        下面用一个实例来表示相关概念:有80个男生,20个女生,做一个女生识别器,结果测试了50个全部是输出女生,其中20个本来是女生,30个是男生。

        则在上面的例子中:TP=20;FP=30;FN=0;TN=0;准确率40%;召回率100%

        在算法评估中,可以通过改变阈值(也可以看作上下移动蓝色的虚线),来选择让系统识别能出多少个图片,当然阈值的变化会导致Precision与Recall值发生变化。

        还有一种相关的算法是m AP计算,每一个类别均可以确定对应的AP,在多类的检测中,取每个类奥的平均值,即m AP。

        

第二章 、目标检测与YOLO

目标检测问题:目标检测是在给定的图片中精确找到物体所在位置,并且标注出物体的类别,物体的尺寸变化范围很大,摆放物体的角度姿态是不确定的而且可以出现在图片的任何地方,并且物体还可以是多个类别。

目标检测问题的发展:R-CNN:SPP NET:Fast R-CNN:Faster R-CNN:最终实现YOLO

第三章、目标检测的实现

目标检测基本原理:

        很多时候图像里有多个我们感兴趣的目标,我们不仅想知道它们的类别,还想得到它们在图像中的具体位置。在计算机视觉里,我们将这类任务称为目标检测(object detection)或物体检测。目标检测在多个领域中被广泛使用。例如,在无人驾驶里,我们需要通过识别拍摄到的视频图像里的车辆、行人、道路和障碍的位置来规划行进线路。机器人也常通过该任务来检测感兴趣的目标。安防领域则需要检测异常目标,如歹徒或者炸弹。

边界框:在目标检测里,我们通常使用边界框来描述目标位置。可以在途中讲边界框画出来,以检查其是否准确。画之前我们定义一个辅助函数就可以将其表示为边界框形式。

锚框:

        目标检测算法通常会在输入图像中采样大量的区域,然后判断这些区域中是否包含我们感兴趣的目标,并调整区域边缘从而更准确地预测目标的真实边界框(ground-truth bounding box)。不同的模型使用的区域采样方法可能不同。这里我们介绍其中的一种方法:它以每个像素为中心生成多个大小和宽高比(aspect ratio)不同的边界框。这些边界框被称为锚框(anchor box)。我们将在后面基于锚框实践目标检测。

生成多个锚框:

        假设输入图像高为h,宽为w。我们分别以图像的每个像素为中心生成不同形状的锚框。设大小为s∈(0,1]且宽高比为r>0,那么锚框的宽和高将分别为ws√ r  和hs/√r  。当中心位置给定时,已知宽和高的锚框是确定的。下面我们分别设定好一组大小s1,…,sn和一组宽高比r1,…,rm。如果以每个像素为中心时使用所有的大小与宽高比的组合,输入图像将一共得到w*h*n*m个锚框。虽然这些锚框可能覆盖了所有的真实边界框,但计算复杂度容易过高。因此,我们通常只对包含s1或r1的大小与宽高比的组合感兴趣

交并比:

        刚刚提到某个锚框较好地覆盖了图像中的狗。如果该目标的真实边界框已知,这里的“较好”该如何量化呢?一种直观的方法是衡量锚框和真实边界框之间的相似度。我们知道,Jaccard系数(Jaccard index)可以衡量两个集合的相似度。给定集合A和B,它们的Jaccard系数即二者交集大小除以二者并集大小。实际上,我们可以把边界框内的像素区域看成是像素的集合。如此一来,我们可以用两个边界框的像素集合的Jaccard系数衡量这两个边界框的相似度。当衡量两个边界框的相似度时,我们通常将Jaccard系数称为交并比,即两个边界框相交面积与相并面积之比,如图所示。交并比的取值范围在0和1之间:0表示两个边界框无重合像素,1表示两个边界框相等。

标注训练集的锚框:

        在训练集中,我们将每个锚框视为一个训练样本。为了训练目标检测模型,我们需要为每个锚框标注两类标签:一是锚框所含目标的类别,简称类别;二是真实边界框相对锚框的偏移量,简称偏移量(offset)。在目标检测时,我们首先生成多个锚框,然后为每个锚框预测类别以及偏移量。接着根据预测的偏移量调整锚框位置从而得到预测边界框。最后筛选需要输出的预测边界框。

数据集介绍:

        在目标检测领域并没有类似MNIST或Fashion-MNIST那样的小数据集。为了快速测试模型,我们合成了一个小的数据集。
• 首先,用一个开源的皮卡丘3D模型生成了1000张不同角度和大小的皮卡丘图像。
• 后我们收集了一系列背景图像,并在每张图的随机位置放置一张随机的皮卡丘图像。

皮卡丘数据集使用MXNet提供的im2rec工具将图像转换成了二进制的RecordIO格式,但是我们后续要使用PyTorch,所以我们先用脚本将其转换成了PNG图片并用json文件存放对应的label信息。

总结/: 合成的数据集可以用力啊检测目标检测模型;

              目标检测的数据读取在引入边界框后,标签形状和图像增广会发生变化。

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值