分类、分割、检测基础

最新推荐文章于 2024-06-27 12:36:05 发布

WYXHAHAHA123

最新推荐文章于 2024-06-27 12:36:05 发布

阅读量425

点赞数

本文链接：https://blog.csdn.net/WYXHAHAHA123/article/details/95482680

版权

AlexNet：7*7卷积

VGGNet：用3个3*3的卷积核代替1个7*7的卷积核，两种卷积核的感受也大小完全相同，但是VGG中的3个3*3的卷积核所包含的参数个数是3*(3*3*C1*C2),7*7的卷积核所包含的参数个数是：7*7*C1*C2，则VGG中卷积网络所包含的参数个数会比Alextnet卷积网络的CNN参数少。

Goolenet：Inception module

Resnet：通过残差连接块(residual module)解决梯度消失问题。

SENet

ResNeXt：是googleNet和resnet的结合

语义分割的基础网络中：用卷积和max pooling实现下采样，使用转置卷积实现上采样，反卷积就是转置卷积。卷积在深度学习的框架底层实现代码中使用的是矩阵相乘，例如对于4*4的卷积特征图再进行3*3的卷积核操作，padding=0，最终将得到2*2的卷积特征图，卷积在框架的底层实现过程如下：首先不考虑batch size维度，将4*4的特征图flatten成16*1的列向量，用一个4*16的矩阵乘以16*1的列向量，将得到4*1的列向量，即为输出的特征图。这个过程就是前向的卷积阶段(下采样过程)。在上采样阶段需要使用反卷积操作，如果需要将2*2的特征图经过上采样需要输出4*4的特征图，则需要用16*4的矩阵乘以4*1的列向量，得到16*1的列向量。由于进行上采样和下采样的矩阵的shape刚好是为转置矩阵的关系，故而使用上采样的卷积操作可以被称为反卷积或者转置卷积。

物体检测模型之YOLO

在工业界使用较多的物体检测模型是YOLO，YOLO V1 paper基本给出了YOLO 模型的大体思路，后面的两个版本都是加入了一些小的trick。物体检测是计算机视觉中的经典问题，它包含两个部分的任务：(1)分类：对于包围框中的前景类别进行分类；(2)回归：对于包围框的具体位置进行回归。深度学习中的分类问题：其ground truth标签是离散的，而对于回归问题，其具体的位置都是连续的坐标值，故而ground truth label都是连续的数值。

相比于Faster RCNN系列中所包含的显示地先求取region proposal的过程，以及SSD中的anchor boxes的设置，YOLO(you only look once)则非常简洁，并没有提出有可能是前景框的候选框。YOLO的网络流程如下：(1)首先将原始的输入图像resize到416*416，(2)然后将图像输入到卷积神经网络中得到卷积特征图，最后一层卷积层的输出特征图就是网络模型的预测值，根据预测值在输入图像上画出prediction bounding boxes(3)对于画出的包围框，使用一定的阈值进行NMS算法。对于基于anchor boxes的密集检测系统而言(通常带有anchor机制的物体检测器是密集检测系统，如faster RCNN中的RPN，以及SSD)，最终都会使用NMS算法滤除冗余的框，因为毕竟ground truth前景框的数量是非常有限的。

将原始的输入图像划分成S*S个网格(grid cell)，论文中将输入的图像resize成416*416，然后经过卷积网络提取特征图之后，得到7*7的特征图，B=2,即在网格的每个小方块中预测2个bounding boxes，也意味着在416*416的输入图像上划分成7*7个网格，则最终将会生成7*7*2=98个bounding boxes，最终根据对于每个包围框的confidence和对于网格中每个像素点的类别概率图，进行NMS算法，得到最终的预测结果。在明确了网络最终所要预测的形式之后，让然需要给出预测特征图的ground truth label。

在416*416的图像上存在一些ground truth bounding boxes，这些ground truth包围框的中心点落在了哪个grid cell中，则哪个grid cell的类别概率图的ground truth就是对应的类别，同时前景的confidence score就是1，如果对于某些网格，没有任何一个ground truth 包围框的中心点落在网格內，则它并不负责预测。也就是说，类别概率图的ground truth label是根据ground truth包围框的中心点标注的。