【深度之眼cs231n第七期】笔记（二十三）_深度之眼cs231n第七期二十三-CSDN博客

本文链接：https://blog.csdn.net/qq_40923177/article/details/103885987

目标识别

目标识别对图像中出现的每一个对象都画一个边框，并对框内的物体进行分类。和分类定位不同的是，输入图像的物体个数不是固定的。
在这里插入图片描述
动态的物体个数其实很难办，我们之前的网络输出的都是固定值，所以一幅图要多次经过卷积神经网络。比如第二张图就要经过三次卷积神经网络才能得到想要的参数。

解决物体个数的不确定性的办法之一就是滑动窗口。然后每个滑动窗口都应用到卷积神经网络去做分类，看看它是某种物体还是背景
在这里插入图片描述
但是这里还有一个问题是：物体的大小不尽相同，该如何选择边框的大小呢？（我们希望边框尽量精确，而不是只要框住物体就可以了。）
如果使用暴力解法，我们需要对各种大小的边框进行尝试。那么对于每种规模的边框，每个滑动窗口都要输入到一个巨大的CNN中去训练，这会非常低效。
后来人们提出了一种叫候选区域的方法（在深度学习中并不常见，在深度学习中这个工作也交给网络去做了）：给一张图片，直接在上面框定大小不同的很多个框，然后对这些框做分类。它的运行速度比滑动窗口快多了。
一个常见的候选区域方法就是选择性搜索（SS算法），划分2000个框。
在这里插入图片描述
在基于区域选择的卷积神经网络（R-CNN）中就运用了候选区域的方法：
1.输入图像，运用候选区域方法，得到大约2000个候选框；
2.候选框有不同的大小（由于分类的神经网络是有固定输出的（C个类），所以全连接层的输入也要是固定的，再往回推，就需要输入到神经网络中的图像是同样大小的），所以对于每个候选框都转换为固定大小；
3.对转换后的每个候选区域，都经过卷积神经网络提取特征；
4.最后把特征拿去给支持向量机做分类；
5.R-CNN也可以用来做回归（边框修正）
在这里插入图片描述
R-CNN的问题：
1.每个候选区域都输入到卷积神经网络去做特征提取，这有大量重复；
2.候选框的大小是固定的而不是学习得到的；
3.训练时很慢，运行时也很慢（47秒每张图片）

改进的R-CNN：Fast R-CNN
1.不是对每个候选区域分别进行特征提取，而是在一开始就对整幅图像进行特征提取；
2.依旧使用选择搜索来获取候选区域，但是是在特征图像上进行的；
3.由于还是存在全连接层，所以这些候选特征还是要固定成同样的大小（使用感兴趣区域池化的方法）；
4.然后就到了全连接层，分别拿去做分类和边框回归
在这里插入图片描述
Fast R-CNN变得很快，大概3秒每张图片（2秒用在划分候选区域（SS算法），1秒用在处理剩下的），所以现在的瓶颈变成了改进候选区域。Faster R-CNN解决了这个问题：它让CNN去做候选区域提取：
1.整幅图像做特征提取；
2.特征图像输入区域提取网络（RPN），得到候选框；
3.候选框和特征图像结合起来；
4.池化→分类、边框回归
Faster R-CNN的损失函数有四个：区域提取网络有两个损失，一个是判定某个候选区域是物体还是背景；还有一个是关于候选区域框的损失（候选区域框和真实的框的重叠区域大于一定的值就算这个候选区域框是有效的）；整个网络的最后结果也有两个损失，一个关于分类，一个关于边框。
在这里插入图片描述
另一类用来做目标检测的模型：YOLO（you only look once）/SSD(single shot detection)（都是一种前馈模型）它们直接用回归来提取边框。
1.每个图像分为很多小块，这里是7*7。对于每个小块都画若干个边框，这里是3个；
2.对于每个边框，既要预测边框偏移，还要预测它是固定类别的分数。所以最后我们有7*7*(5*B+C)个输出。下图中边框的个数B=3，C是类别的个数，5是每个边框的输出（x,y,w,h,与真实区域重叠的概率）
在这里插入图片描述

实例分割

实例分割：输入图像，对某一个物体做分类、而且分割出该物体的精确位置（有点像混合了语义分割和目标检测）。但是语义分割里是把一类物体都涂成相同的颜色，而实例分割是每一个实例涂一种颜色。
在这里插入图片描述
Mask R-CNN和Faster R-CNN很像，只是把感兴趣区域池化改为了感兴趣区域对齐（ROI Align），然后在最后添加了一个看起来和语义分割很像的网络，用来对候选区域的像素做分类。

Mask R-CNN还可以做人体姿势估计（添加一个姿势估计的层）。这是一个结合了目标检测、姿态估计和实例分割的例子。
在这里插入图片描述