神经网络与深度学习第四周学习总结

最新推荐文章于 2024-08-15 13:54:22 发布

逐梦charon

最新推荐文章于 2024-08-15 13:54:22 发布

阅读量68

点赞数

文章标签：学习人工智能

本文链接：https://blog.csdn.net/qq_45907735/article/details/129909930

版权

第六部分，深度学习视觉应用

第一章、数据集与评价指标

1.4 算法评估

在算法评估中：

TP是指被正确地划分为正例的个数

FP是指被错误地划分为正例的个数

FN是指诶错误的划分为负例的个数

TN是指被正确地划分为负例的个数

P（精确率）：TP/（TP +FP）

R（召回率）：TP/（TP+FN），其中召回率越高，准确度越低

可以使用P- R曲线里来表示召回率和准确率之间的关系：

下面用一个实例来表示相关概念：有80个男生，20个女生，做一个女生识别器，结果测试了50个全部是输出女生，其中20个本来是女生，30个是男生。

则在上面的例子中：TP=20；FP=30；FN=0；TN=0；准确率40%；召回率100%

在算法评估中，可以通过改变阈值（也可以看作上下移动蓝色的虚线），来选择让系统识别能出多少个图片，当然阈值的变化会导致Precision与Recall值发生变化。

还有一种相关的算法是m AP计算，每一个类别均可以确定对应的AP，在多类的检测中，取每个类奥的平均值，即m AP。

第二章、目标检测与YOLO

目标检测问题：目标检测是在给定的图片中精确找到物体所在位置，并且标注出物体的类别，物体的尺寸变化范围很大，摆放物体的角度姿态是不确定的而且可以出现在图片的任何地方，并且物体还可以是多个类别。

目标检测问题的发展：R-CNN：SPP NET：Fast R-CNN：Faster R-CNN：最终实现YOLO

第三章、目标检测的实现

目标检测基本原理：

很多时候图像里有多个我们感兴趣的目标，我们不仅想知道它们的类别，还想得到它们在图像中的具体位置。在计算机视觉里，我们将这类任务称为目标检测（object detection）或物体检测。目标检测在多个领域中被广泛使用。例如，在无人驾驶里，我们需要通过识别拍摄到的视频图像里的车辆、行人、道路和障碍的位置来规划行进线路。机器人也常通过该任务来检测感兴趣的目标。安防领域则需要检测异常目标，如歹徒或者炸弹。

边界框：在目标检测里，我们通常使用边界框来描述目标位置。可以在途中讲边界框画出来，以检查其是否准确。画之前我们定义一个辅助函数就可以将其表示为边界框形式。

锚框：

目标检测算法通常会在输入图像中采样大量的区域，然后判断这些区域中是否包含我们感兴趣的目标，并调整区域边缘从而更准确地预测目标的真实边界框（ground-truth bounding box）。不同的模型使用的区域采样方法可能不同。这里我们介绍其中的一种方法：它以每个像素为中心生成多个大小和宽高比（aspect ratio）不同的边界框。这些边界框被称为锚框（anchor box）。我们将在后面基于锚框实践目标检测。

生成多个锚框：

假设输入图像高为h，宽为w。我们分别以图像的每个像素为中心生成不同形状的锚框。设大小为s∈(0,1]且宽高比为r>0，那么锚框的宽和高将分别为ws√ r 和hs/√r 。当中心位置给定时，已知宽和高的锚框是确定的。下面我们分别设定好一组大小s1,…,sn和一组宽高比r1,…,rm。如果以每个像素为中心时使用所有的大小与宽高比的组合，输入图像将一共得到w*h*n*m个锚框。虽然这些锚框可能覆盖了所有的真实边界框，但计算复杂度容易过高。因此，我们通常只对包含s1或r1的大小与宽高比的组合感兴趣

交并比：

刚刚提到某个锚框较好地覆盖了图像中的狗。如果该目标的真实边界框已知，这里的“较好”该如何量化呢？一种直观的方法是衡量锚框和真实边界框之间的相似度。我们知道，Jaccard系数（Jaccard index）可以衡量两个集合的相似度。给定集合A和B，它们的Jaccard系数即二者交集大小除以二者并集大小。实际上，我们可以把边界框内的像素区域看成是像素的集合。如此一来，我们可以用两个边界框的像素集合的Jaccard系数衡量这两个边界框的相似度。当衡量两个边界框的相似度时，我们通常将Jaccard系数称为交并比，即两个边界框相交面积与相并面积之比，如图所示。交并比的取值范围在0和1之间：0表示两个边界框无重合像素，1表示两个边界框相等。

标注训练集的锚框：

在训练集中，我们将每个锚框视为一个训练样本。为了训练目标检测模型，我们需要为每个锚框标注两类标签：一是锚框所含目标的类别，简称类别；二是真实边界框相对锚框的偏移量，简称偏移量（offset）。在目标检测时，我们首先生成多个锚框，然后为每个锚框预测类别以及偏移量。接着根据预测的偏移量调整锚框位置从而得到预测边界框。最后筛选需要输出的预测边界框。

数据集介绍：

在目标检测领域并没有类似MNIST或Fashion-MNIST那样的小数据集。为了快速测试模型，我们合成了一个小的数据集。
• 首先，用一个开源的皮卡丘3D模型生成了1000张不同角度和大小的皮卡丘图像。
• 后我们收集了一系列背景图像，并在每张图的随机位置放置一张随机的皮卡丘图像。

皮卡丘数据集使用MXNet提供的im2rec工具将图像转换成了二进制的RecordIO格式，但是我们后续要使用PyTorch，所以我们先用脚本将其转换成了PNG图片并用json文件存放对应的label信息。