场景识别论文阅读感想(初步)

近日阅读了一篇cvpr上2016年关于场景识别的论文,写了如下感想

 

《The Cityscapes Dataset for Semantic Urban Scene Understanding》阅读感想

1.概述

 

对于城市道路的环境识别一直是一项对视觉识别来说是有挑战性的项目。而大规模的数据集对目标检测是十分有利,特别是在深度学习中。但是,对于目前真实的城市场景识别来说,目前的所存在数据集很难适应真实城市场景中的复杂性问题。

为了解决这个问题,在cvpr2016会议的paper 中《The Cityscapes Dataset for Semantic Urban Scene Understanding》提出了自己的数据集Cityscapes,一种基于像素等级进行训练的大规模数据集合,其目标就是为了训练出大规模的,可适应真实城市环境的复杂性和多变性的数据集,对此提出了自己相应的Visual Scene Understanding的识别方法。

首先,要提及的是Cityscapes的大规模性,这个数据集是在50个不同城市跨春、夏、秋季的视频采集训练的结果,有5000张图片是高质量像素级的标记,20000张图片是进行粗糙标记以适应方法对于较弱标记的数据。

在规模较大的这个特点上,文章对现在存在的数据集进行了分析,如KITTI Vision Benchmark Suite , CamVid , Leuven, and Daimler Urban Segmentation 等数据集首先在规模上都是比较小的,同时质疑了它们是否能适应真实城市世界的复杂性和易变性,这两个缺点对将来城市街道识别都是有很严重的影响的。

并通过数字化和其他几种方法对比了在识别特点上自己的数据集的优势:

 

从图表的对比中来看,Cityscapes数据集首先在对flat、construction、nature、vehicle、object、human的识别上还是比较占优势的,同时Cityscapes的数据集对照片进行了像素级精细和粗糙的两种标记,可以看到在标记密度上精细标记情况下高达了97.1%,比其他几种方法都要好。

同时,基于FCNs设置的基准线筛选出了一部分不适合标记的图片,最后留下了19类识别度较高的结果。

如图所示:

 

在方法上,首先对标记的图片标签要进行评估是否合理,于是利用了两种方法,一种是传统的Jaccard系数,另一种是新的度量,首先Jaccard index[ , 又称为Jaccard相似系数(Jaccard similarity coefficient)用于比较有限样本集之间的相似性与差异性。Jaccard系数值越大,样本相似度越高。

给定两个集合A,B,Jaccard 系数定义为A与B交集的大小与A与B并集的大小的比值,定义如下:

 

当集合A,B都为空时,J(A,B)定义为1。

2.运用的重要算法:R-CNN

对场景的识别主要是实用了基于R-CNN的物体检测对场景识别后在利用CNNs进行分类。

 

其中最关键是对于R-CNN(Regions with Convolutional Neural Network Features)的理解,R-CNN是CVPR2014年会议上的经典paper:《Rich feature hierarchies for Accurate Object Detection and Segmentation》,是物体检测领域曾经获得state-of-art精度的经典文献。

首先资料查询以后我对以下一些物体检测方面的名词的理解:

1.IOU的定义

因为没有搞过物体检测不懂IOU这个概念,所以就进行了资料的查询。物体检测需要定位出物体的bounding box,就像下面的图片一样,我们不仅要定位出车辆的bounding box 我们还要识别出bounding box 里面的物体就是车辆。对于bounding box的定位精度,有一个很重要的概念,因为我们算法不可能百分百跟人工标注的数据完全匹配,因此就存在一个定位精度评价公式:IOU。

 

IOU定义了两个bounding box的重叠度,如下图所示:

 

矩形框A、B的一个重合度IOU计算公式为:

 

IOU=(A∩B)/(A∪B)

 

就是矩形框A、B的重叠面积占A、B并集的面积比例:

 

IOU=SI/(SA+SB-SI)

2.非极大值抑制

R-CNN算法就是标记多个矩形框以后然后从中选择合适的并进行标记分类

 

就像上面的图片一样,定位一个车辆,最后算法就找出了一堆的方框,我们需要判别哪些矩形框是没用的。非极大值抑制:先假设有6个矩形框,根据分类器类别分类概率做排序,从小到大分别属于车辆的概率分别为A、B、C、D、E、F。

(1)从最大概率矩形框F开始,分别判断A~E与F的重叠度IOU是否大于某个设定的阈值;

 

(2)假设B、D与F的重叠度超过阈值,那么就扔掉B、D;并标记第一个矩形框F,是我们保留下来的。

 

(3)从剩下的矩形框A、C、E中,选择概率最大的E,然后判断E与A、C的重叠度,重叠度大于一定的阈值,那么就扔掉;并标记E是我们保留下来的第二个矩形框。

 

就这样一直重复,找到所有被保留下来的矩形框。

 

对这些在R-CNN中出现的基础名词查询理解了以后,然后是R-CNN的具体思路:图片分类与物体检测不同,物体检测需要定位出物体的位置,这种就相当于回归问题,求解一个包含物体的方框。而图片分类其实是逻辑回归。这种方法对于单物体检测还不错,但是对于多物体检测就比较困难

因此提出R-CNN的paper的方法是:首先输入一张图片,我们先定位出2000个物体候选框,然后采用CNN提取每个候选框中图片的特征向量,特征向量的维度为4096维,接着采用svm算法对各个候选框中的物体进行分类识别。也就是总个过程分为三个程序:a、找出候选框;b、利用CNN提取特征向量;c、利用SVM进行特征向量分类。具体的流程如下图片所示:

 

 

3.总结

这篇2016年的paper阅读完以后发现它的特色在于以下三点:

一、文章脉络很清晰,首先是对scene understading的总体概述,包括提到了deep learning对场景识别的帮助,以及自己提出这个城市数据集的缘由是在于现在的城市场景识别数据集要么规模小,要么就是难以适应真实环境的复杂度和易变性。

二、自己的项目规模做得比较大,获取的数据规模多,同时为了适应不同的需求,分类做了精细标记和粗糙标记两种。首先在数据数量上占了优势,其次在分类数量上也占到了优势。

三、运用了很多经典的方法,如用FCNs做基准线,筛选出符合要求的数据集,然后用R-CNN方法进行图像的识别分类,同时运用了两种不同的Jaccard 系数,从各种方面都阐述了自己方法的优势。

但是它也有自己的缺陷,比如IoU系数只有67.1%,而PASCAL VOC和KTTI的IoU系数能达到77.9%和72.5%

对于我个人的感受来说,就是第二次阅读这样的全英文的paper比第一次阅读迁移学习那篇稍微轻松了一些,虽然也有一些生僻的词汇,但是发现很多单词跟考研背的单词都是一样的,所以阅读稍微会快了一些,然后也在其中看到很多专有名词,比如杰卡德系数,然后FCNs,R-CNN和IoU等,最后通过不断的查资料以后还是有了一定的了解。

之后要做的就是在复习的同时多阅读一些paper,理解别人的思想方法,对自己今后的研究也有很大的帮助。

 

  • 3
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值