分类、分割、检测基础

AlexNet:7*7卷积

VGGNet:用3个3*3的卷积核代替1个7*7的卷积核,两种卷积核的感受也大小完全相同,但是VGG中的3个3*3的卷积核所包含的参数个数是3*(3*3*C1*C2),7*7的卷积核所包含的参数个数是:7*7*C1*C2,则VGG中卷积网络所包含的参数个数会比Alextnet卷积网络的CNN参数少。

Goolenet:Inception module

Resnet:通过残差连接块(residual module)解决梯度消失问题。

SENet

ResNeXt:是googleNet和resnet的结合

语义分割的基础网络中:用卷积和max pooling实现下采样,使用转置卷积实现上采样,反卷积就是转置卷积。卷积在深度学习的框架底层实现代码中使用的是矩阵相乘,例如对于4*4的卷积特征图再进行3*3的卷积核操作,padding=0,最终将得到2*2的卷积特征图,卷积在框架的底层实现过程如下:首先不考虑batch size维度,将4*4的特征图flatten成16*1的列向量,用一个4*16的矩阵乘以16*1的列向量,将得到4*1的列向量,即为输出的特征图。这个过程就是前向的卷积阶段(下采样过程)。在上采样阶段需要使用反卷积操作,如果需要将2*2的特征图经过上采样需要输出4*4的特征图,则需要用16*4的矩阵乘以4*1的列向量,得到16*1的列向量。由于进行上采样和下采样的矩阵的shape刚好是为转置矩阵的关系,故而使用上采样的卷积操作可以被称为反卷积或者转置卷积。

物体检测模型之YOLO 

在工业界使用较多的物体检测模型是YOLO,YOLO V1 paper基本给出了YOLO 模型的大体思路,后面的两个版本都是加入了一些小的trick。物体检测是计算机视觉中的经典问题,它包含两个部分的任务:(1)分类:对于包围框中的前景类别进行分类;(2)回归:对于包围框的具体位置进行回归。深度学习中的分类问题:其ground truth标签是离散的,而对于回归问题,其具体的位置都是连续的坐标值,故而ground truth label都是连续的数值。

相比于Faster RCNN系列中所包含的显示地先求取region proposal的过程,以及SSD中的anchor boxes的设置,YOLO(you only look once)则非常简洁,并没有提出有可能是前景框的候选框。YOLO的网络流程如下:(1)首先将原始的输入图像resize到416*416,(2)然后将图像输入到卷积神经网络中得到卷积特征图,最后一层卷积层的输出特征图就是网络模型的预测值,根据预测值在输入图像上画出prediction bounding boxes(3)对于画出的包围框,使用一定的阈值进行NMS算法。对于基于anchor boxes的密集检测系统而言(通常带有anchor机制的物体检测器是密集检测系统,如faster RCNN中的RPN,以及SSD),最终都会使用NMS算法滤除冗余的框,因为毕竟ground truth前景框的数量是非常有限的。

将原始的输入图像划分成S*S个网格(grid cell),论文中将输入的图像resize成416*416,然后经过卷积网络提取特征图之后,得到7*7的特征图,B=2,即在网格的每个小方块中预测2个bounding boxes,也意味着在416*416的输入图像上划分成7*7个网格,则最终将会生成7*7*2=98个bounding boxes,最终根据对于每个包围框的confidence和对于网格中每个像素点的类别概率图,进行NMS算法,得到最终的预测结果。在明确了网络最终所要预测的形式之后,让然需要给出预测特征图的ground truth label。

在416*416的图像上存在一些ground truth bounding boxes,这些ground truth包围框的中心点落在了哪个grid cell中,则哪个grid cell的类别概率图的ground truth就是对应的类别,同时前景的confidence score就是1,如果对于某些网格,没有任何一个ground truth 包围框的中心点落在网格內,则它并不负责预测。也就是说,类别概率图的ground truth label是根据ground truth包围框的中心点标注的。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值