百面深度学习 第九章计算机视觉

问题1 简述物体检测领域中的单步模型和两步模型的性能差异及其原因。

单步模型是指没有独立地、显式地提取候选区域,直接由输入图像得到其中存在的物体的类别和位置信息的模型。
两步模型有独立地、显式的候选区域提取工程,即先在输入图像上筛选出一些可能存在物体的候选区域,然后针对每个候选区域,判断是否存在物体,如果存在,就给出物体的类别和位置修正信息。
单步模型在计算效率上有优势,两步模型在检测精度上有优势。
单步模型利用预设的锚框。会对数量庞大的锚框来进行是否包含物体的分类。正负样本不均衡。分类器效果不佳。
两步模型在候选区域提取的过程中会对候选框的位置和大小进行修正,因此在进入第二步之前,候选区域的特征已经被对齐了,这样有助于为第二部的分类提供质量更高的特征。第二步中候选框也需要被修正
两步走要进行候选区域的分类和回归。

问题2 简单介绍两步模型R-CNN,SPPNet,Fast R-CNN,Faster R-CNN的发展过程。

R-CNN是第一个将卷积神经网络用于目标检测的深度学习网络。首先使用无监督的选择性搜索方法将输入图像具有相似颜色直方图特征的区域进行递归合并产生2000个候选区域。然后从输入图像中截取这些候选区域对应的图像,裁剪至合适尺寸,并相继送入一个CNN特征提取网络进行高层次特征提取,提取出的特征被送入一个SVM分类器中进行分类,以及一个线性回归器进行边框位置和大小的修正,最后对检测结果进行非极大值抑制操作,得到最终的检测结果。
SPPNet:空间金字塔池化。被放在CNN网络之后,可以接受任意尺寸的特征图的输入,最终输出的是具有固定尺寸的池化特征。R-CNN的方法提取的特征图会有重叠导致计算瓶颈,因此只进行一次全图的特征提取,而后每个候选区域对应的特征直接从全局特征进行截取,然后送入空间金字塔池化层进行尺寸的通过。
Faste R-CNN:使用感兴趣区域池化而非空间金字塔层池化。同时使用全连接网络代替了之前的SVM分类器和线性回归器来进行物体分类和检测框修正。
FasteR R-CNN:将最耗时的候选区域提取步骤用一个区域候选网络替代。通过RPN提取候选区域。

问题3 简单介绍单步模型YOLO、YOLOv2、YOLO9000,YOLOv3

YOLO:基本思想是使用一个端到端的卷积神经网络直接预测目标的类别和位置。YOLO将输入图像划分为S*S的方法,每个放个需要检测出中线点位于该方格内的物体。在具体实施时,每个方格会预测B个边界框(包括位置、尺寸和置信度)。YOLO的主体网络结构参考GoogLeNet由24个卷积层和2个全连接层组成。
**YOLOv2:**针对低召回率和低定位准确率。在卷积层后面添加了批归一化层,以加快收敛速度,防止过拟合。卷积特征提取器在进行检测任务之前,先在高精度的图片上进行调优10个批次,这样能使检测模型提前适应高分辨率图像。
YOLO使用卷积神经网络作为特征提取器,在卷积神经网络之后加上全连接层来预测边界框的中心大小和置信度。v2用卷积神经网络直接在锚点框上预测偏移量和置信度。
**YOLO9000:**使用检测数据集和分类数据集进行联合训练。

问题4:有哪些措施可以增强模型对于小物体的检测效果?

模型涉及可以用特征金字塔、漏斗结构。尽可能提升网络的感受野。增加小物体数据比例,也可数据增强。

问题1 简述图像分割中经常用到的编码器-解码器网络结构的设计理念。列举1-2个基于编码器-解码器结构的图像分割算法。

编码器可以视为特征提取网络,通常使用池化层来逐渐缩小输入数据的空间维度。而解码器则通过上采样/反卷积等网络层来逐渐恢复目标的细节和相应的空间维度。
在编码器中引入池化层可以增加后续卷积层的感受野并使得特征聚焦在重要信息中,降低背景干扰有助于图像分类。
U-net,F-CN都引入了快捷连接向解码器中引入编码器的特征。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值