Review of Vehicle Recognition Technology - 车辆识别技术综述

Review of Vehicle Recognition Technology - 车辆识别技术综述

ZHANG Qiang, LI Jiafeng, ZHUO Li
Faculty of Information Technology, Beijing University of Technology, Beijing 100124, China
北京工业大学信息学部,北京 100124

Beijing University of Technology,Beijing Polytechnic University or Bei Gong Da:北京工业大学,北工大

Abstract - 摘要

Vehicle recognition is one of the most important parts of intelligent transportation system. In addition, it is also the basis of other high-level intelligent tasks such as traffic management, self-driving, suspect tracing and behavior analysis. Firstly the difficulties and challenges in vehicle recognition researches were presented in this paper. On the basis of this, a detailed summary in the advanced technology development of vehicle recognition researches of shallow learning and deep learning was given. Finally the problems be solved were analyzed, and the future research direction in vehicle recognition researches field was proposed.
车辆识别是智能交通系统的重要组成部分,也是交通管控、无人驾驶、疑犯追踪、行为分析等其他智能任务的基础。首先对车辆识别研究中存在的困难与挑战进行了阐述,在此基础上详细综述了基于浅层学习和深度学习的车辆识别前沿技术研究进展,最后进行了总结与分析,探讨了车辆识别领域目前仍需解决的问题和未来的研究方向。

Key words - 关键词

vehicle recognition; deep learning; shallow learning; intelligent transportation system
车辆识别;深度学习;浅层学习;智能交通系统

根据区分车辆属性的不同,车辆识别又可以细分为车色识别、车型识别、车标识别、车牌识别等 [3-5]。

(1) 受到光照、噪声、特殊天气等因素的影响,车辆的视觉表观特征会发生很大的变化。
(2) 摄像头位置及参数多变,车辆在图像中的尺寸及姿态变化较大。
(3) 存在大量的近似车型,不同车型的类间差异较小。
交叉路口及转弯路口等复杂交通场景,以及交通拥堵所带来的遮挡率的提升,也导致车辆识别的难度的增加。

基于视觉分析的车辆识别技术的发展分成 2 个阶段:浅层学习阶段和深度学习阶段 [7-8]。

1 基于浅层学习的车辆识别

基于浅层学习的车辆识别一般包括数据获取、预处理、特征提取、图像表示、分类器设计等 [9] 环节,如图 1 所示。

在这里插入图片描述
Fig. 1 Flowchart of shallow learning for vehicle recognition

一是提取什么样的特征对车辆进行表达;二是应用何种浅层结构学习模型进行分类器设计。

浅层学习阶段的特征提取通常采用人工设计的特征提取方法,理想的特征可以充分表示图像的某一类特性,接下来还需要对所提取的特征进行有效组织来表达图像的内容,有效的表示或编码方法是获得好的识别性能的基础。

浅层结构的学习模型通常包含不超过 1 层或 2 层的隐层节点 (非线性变换) [10]。常用的浅层学习模型主要包括:提升方法 (boosting)、高斯混合模型 (Gaussian mixture model,GMM)、逻辑回归 (logistic regression or logit regression,LR)、支持向量机 (support vector machines or support vector networks,SVMs) 等。

在基于浅层学习的车辆识别方法中,特征表达的优劣将直接影响浅层学习方法的最终识别性能。基于浅层学习方法的车辆识别技术主要可以分为基于全局特征的车辆识别方法、基于局部特征的车辆识别方法以及基于三维特征的识别方法共 3 种。

1.1 基于全局特征的车辆识别方法

基于全局特征的车辆识别方法通过提取特征对车辆图像的整体信息进行描述,得到图像的特征表示向量,结合浅层学习方法,完成车辆类别的判断及预测。

常用的全局特征主要有颜色、纹理、形状特征等。

在实际应用中,受到光照变化、天气、噪声等因素的影响,车辆的视觉表观特征会发生明显的变化,导致颜色偏移,给车辆颜色的识别带来了巨大的困难与挑战。

车色识别中广泛应用的全局特征之一就是颜色直方图。其特点是以图像中各种颜色出现的概率为特征,这种特征对图像的旋转、平移和尺度变化不敏感。

Baek 等 [11] 利用了颜色直方图的优势,在色调、饱和度、亮度 (hue, saturation, value,HSV) 颜色空间,使用 H、S 两个分量的颜色直方图构成二维特征向量,解决了车辆颜色的特征表达问题。

在 Baek 等工作的基础上,考虑到直方图特征在不同颜色通道的信息对识别的重要程度不同的性质。 Kim 等 [12] 采用在色调、饱合度、强度 (hue, saturation, intensity,HSI) 颜色空间中,为每个颜色通道设置不同数量的统计区间 (H 分量 8 个,S 分量 4 个,I 分量 4 个) 的配置方法。与采用 3 分量提取相同数量统计区间的直方图特征方案相比,该方法可以实现处理时间的降低和识别精度的提升。但是这类对整幅图像进行统计的方法,所得到的特征表达通常存在大量的冗余信息和无关特征。在识别过程中,图像背景区域及车窗、车轮等非车色区域信息的增加对车色的识别起着抑制作用。

HSL (hue, saturation, lightness)
HSV (hue, saturation, value)
HIS (Hue, Saturation, Intensity)

Dule 等 [13] 从解决上述问题的角度出发,考虑通过对不同的感兴趣区 ( regions of interest,ROI) 分别提取颜色直方图构造特征向量的配置方法获得较好的车色识别性能。同样是为了去除非车色区域对识别的影响,Hu 等 [14] 则利用二色反射模对图像进行分析,直接提取车色区域的颜色特征进行识别。这种方法在去除干扰的同时,对光照变化也有较好的鲁棒性。

一些可以表达车辆外观的全局特征,如边缘、梯度、形状 (尺寸、轮廓、纵横比等) 等被普遍应用于车型识别中 [15-17]。这类方法首先对训练图像提取车辆目标,然后提取边缘、形状等特征,最后选择适当分类方式判断车辆的类别信息,例如距离度量 [15]、贝叶斯分类器 [16]、级联分类器 [17] 等。

全局特征主要反映车辆的整体特性,通常对类间差别较大的车色识别 [18]、车辆种类 (货车、轿车、客车等) 识别 [19-20] 等任务具有良好的分类效果。对于类间差别较小、更为精细化的车辆模型识别任务,全局特征识别的准确性和鲁棒性较差。这是由于全局特征对细节信息的描述不够充分,无法反映类间的细节差异。

1.2 基于局部特征的车辆识别方法

首先,提取底层局部特征 (包括兴趣点检测和密集提取 2 种方式) 进行描述;然后,使用一种特征变换算法对底层特征进行编码 (向量量化、稀疏编码等),经过特征汇聚等操作,从而获得更具区分性、更加鲁棒的特征表达,得到一个紧致的特征向量;最后,选择适当的浅层学习结构学习得到一个分类器 (SVM 等) 完成对车辆的分类识别。

核心是如何有效地对局部特征进行紧凑表达,提升识别性能。

Csurka 等[21] 应用词袋模型 (bag of word, BoW) 解决对局部特征进行紧凑表达的问题。BoW 方法,首先从关键点特征的描述出发,通过学习构建视觉词典;然后,用一个或多个单词来表示局部特征,实现了图像细节信息的良好表达。在 BoW 模型的基础上,Behley 等 [22] 引入不同尺度的图像信息,构建混合 BoW 模型,实现了对车辆细节信息的多尺度表达。与单一的 BoW 模型相比,混合模型识别精度有明显的提升。

BoW 模型将图像表示成无序的局部特征集,这一做法忽略了特征的空间位置信息,降低了特征的区分能力。针对这一问题,Li 等 [23] 提出一种目标银行 (object bank) 的方法,用图像中的目标作为特征,采用空间金字塔 (spatial pyramid matching,SPM) [24] 技术引入空间信息实现对特征的表达。

Felzenszwalb 等 [25] 提出的可变部件模型 (deformable parts model,DPM) 则应用基于目标局部信息进行识别,实现了特征区分能力的提升。Li 等 [26] 延续 DPM 的思想,应用层次性与或图模型自适应地从训练数据中挖掘出具有判别性的上下文模式和遮挡模式,较好地解决了遮挡问题对车辆识别的影响。

Zhang 等 [27] 采用对目标的固有语义部分进行强监督训练,得到 DPM 模型,然后又结合弱语义标签信息来学习跨组件之间的对应关系,完成姿态归一化描述符的计算。这种方法能够跨姿态和视点进行池化,在一定程度上克服姿态和视角变化对识别的影响,从而提升了识别效率。

1.3 基于三维信息特征的车辆识别方法

人们对二维图像中的车辆进行三维 (three dimensions,3D) 建模获得三维信息,然后通过训练固定的 3D 模型进行车辆识别 [28-31]。

Buch 等 [32] 使用 3D 模型提取运动轮廓并与投影的模型轮廓进行比较以识别车辆的地平面位置和类别,很好地解决了车辆阴影对车辆识别的影响问题。

Leotta 等 [33] 提出的可变形 3D 模型构建方法则有效解决了预先构建的 3D 车辆形状模型与图像的约束对准问题。

3D 建模的方法可以在一定程度上解决视点变化的问题,但是固定不变的 3D 车辆模型往往无法区分其他不同形状的对象。同时,由于特征提取、图像表示和模型匹配等环节会随着模型数量的增加而变得更为复杂,这无疑增加了计算和时间上的开销,对于类别较多的车辆精细识别任务来说实现相对困难。

基于浅层学习方法的车辆识别技术多侧重学习一种理想的特征表达来描述车辆的局部信息,但是对于细粒度的车辆识别而言,这类方法无法充分表达车辆类别之间细微的外观变化,使得没有领域知识的人不能容易地识别细粒度模型。

2 基于深度学习的车辆识别

2.1 基于 CNN 的车辆识别方法

第 1 种思路是将特征提取和分类过程集合到一个端到端的深度网络中,实现车辆识别;第 2 种是利用深度网络的中间层特征表达,结合浅层学习知识完成识别过程。

在这里插入图片描述
Fig.2 Flowchart for vehicle recognition base on CNN

2.1.1 基于 CNN 的端到端车辆识别方法

从 LeNet-5 [44] 开始,CNN 就有了一个标准结构,即由堆叠的卷积层及其优化层、对比度归一化层、池化层 (最大、平均),以及处在结构末尾的一个或者多个全连接层组成。

Rachmadi 等 [47] 考虑到传统单支 CNN 网络的局限性,采用 2 条 CNN 数据变换流,提取 2 组深度 CNN 特征,经过组合实现并行网络的同步学习,实现了对车色的良好识别。与传统方法相比,这类并行交叉的 CNN 模型学习更充分,网络模型区分能力更强,同时在一定程度上抑制了过拟合现象。在车辆颜色数据集 [18] 上,与采用词袋模型结合上下文特征的基线数据相比,识别精度提高了 2%。缺点是由于网络分支的增加,需要更新的网络参数增多,导致训练过程耗时严重。
[18] Vehicle Color Recognition on Urban Road by Feature Context

应用正则化技术训练深度 CNN,解决细粒度车辆数据标注缺乏和车辆样本类间距离较小、类内距离较大的问题。

目前常用的训练端到端深度网络模型的方法为:首先,对大规模标注数据 (ILSVRC-2012 [39]、COCO [53] 等数据集) 进行有监督预训练,获得初始的网络权重参数值;然后在相对较小的任务数据集 (车辆数据集等) 上进行微调训练,得到最终的分类识别模型。与直接应用任务数据集训练 CNN 相比,采用预训练结合微调的方案通常会取得更好的识别效果。

2.1.2 基于 CNN 中间层深度特征表达的车辆识别

利用深度特征结合浅层技术来完成车辆识别。

Hu 等 [54] 采用 SPM 模型和 Alex-Net 网络相结合的方法,引入空间信息,在车辆车色识别任务中,实现了传统领域知识和深度学习优势的融合。该方法首先利用 SPM 技术对原始图像进行划分,然后训练 CNN,提取卷积特征,级联后形成特征向量,应用 SVM 作为分类器实现车色的识别。该方法在车辆颜色数据集 [18] 上进行测试,取得了目前最好的识别结果。
[18] Vehicle Color Recognition on Urban Road by Feature Context

对于车型识别来说,应用基于 part-base 的思想增加局部结构信息是提升识别性能的常用方法[55-56]。

与在浅层学习方法中使用手工制作特征相比,CNN 能够使用其多层前馈结构从大规模数据集学习层次特征,在图像分类识别任务中取得了出色的性能。目前基于 CNN 的车辆识别研究中,在采用端到端模式的识别方法在性能上达到一个瓶颈时,通常会采用 2 种方案提升性能:一种是结合浅层学习知识和深度特征完成分类识别;另一种是将相关的领域知识和浅层学习技术融入到深度网络中,构建一个新的端到端网络结构,从而提升图像分类的精度。

2.2 基于其他深度模型的车辆识别方法

该方法利用 DBM 可以有效地融合特征的优点,不使用原始图像作为模型的输入,而是采用方向梯度直方图 (histogram of oriented gradient, HOG) 等 3 种手工设计特征分别作为深度网络源数据,并使用融合的特征作为深层网络的输入单元。所有 3 个特征向量的融合向量经过多层非线性隐层进行学习,应用线性分类器得到预测的车辆类别结果。

一方面证明了 DBM 具有强大特征表示能力,另一方面也为深层网络提供了一种输入源数据的方式,即以传统的手工特征作为深度网络的输入数据,进而深入挖掘深层网络的潜在学习能力。

DBN 是由多层随机隐藏变量组成的概率模型,其学习过程可以分为 2 个阶段:生成学习阶段和监督学习阶段。整个学习过程,首先用未标记的样本逐层抽取信息;然后通过标记的样本对整个深度网络进行微调,以达到最终的学习目标。 这类方法通过对每层网络的贪婪无监督学习,使特征从松散的低级表示逐渐地组合成更紧凑的高级表示,从而使其更具区分能力。在监督阶段,对整个深度网络使用基于全局梯度优化的策略完成最后的分类识别,进一步提升模型的学习能力。

可以预见,结合不同的深度网络结构的特点解决车辆识别问题在不久的将来会取得突破性进展。

3 车辆识别常用公共数据集

特别是深度学习技术应用于图像分类以后,在训练数据足够多的情况下,通常可以很容易地获得很好的识别效果。

表 1 公共车辆识别数据集
在这里插入图片描述

目前最常用的验证车辆精细识别算法性能的公开数据集有 Stanford-Cars [51]、CompCar [66]、Vehicle Color [18] 等。

[18] Vehicle Color Recognition on Urban Road by Feature Context
[51] 3D Object Representations for Fine-Grained Categorization
[66] A Large-Scale Car Dataset for Fine-Grained Categorization and Verification
[65] Vehicle Color Classification Under Different Lighting Conditions Through Color Correction

Stanford-Cars 数据集 [51] 是覆盖了多种规格 (轿车、轿跑车、敞篷车、两厢车和货车等)、不同拍摄角度、不同分辨率等变化的细粒度车辆数据集,具体包含了 2 个评测集:一个是超细粒度车辆识别数据集,称为 BMW-10,包含 10 款宝马轿车,共 512 幅图像。另一个是细粒度车辆识别数据集,称为 Car-196,共包含 196 类的车辆,总共有 16185 幅图像。由于涵盖了车辆的不同角度,尺度变化极大,同时还包括了多种规格车型。

浅层学习方法主要以基于局部特征结合不同的特征表达方法为主。随着识别方法的不断改进,提升幅度较小,这说明对于车型的精细识别而言,基于浅层学习的车辆识别方法难以达到理想识别效果。随着端到端模式深度网络的应用,车辆识别算法的精度提升幅度明显升高 (13% 以上)。

传统的浅层学习技术仍具有一定的研究价值,不能因为深度学习的成功而忽视传统领域知识对车辆识别性能的影响。

表 2 Car-196 数据集上不同算法的识别性能对比
在这里插入图片描述

CompCar [66] 数据集是目前规模最大、类别最丰富、用于评测车辆精细识别的公开数据集。数据集通过网络和监控设备采集得到车辆图像,其中网络图像共 136726 幅,涵盖了 163 个汽车厂家的 1 716 类车型,监控图像共 44481 幅车辆正面图像,包含 281 类车型。

CompCar 数据集的另一个部分是局部图像子集,包括 123 个厂家的 956 类车型的 27 618 幅局部图像,每类车辆分别包含大灯、尾灯、雾灯、进气口、控制台、方向盘、仪表板、变速杆等 8 个部分的局部图像。

车色的精确识别同样也是车辆识别领域一个重要研究方向,相关的数据集有 NTOU Car Color [65]、Vehicle Color [18]、Sv_Dataset [66] 等。

NTOU Car Color 数据集包括 7 类颜色,共有 16648 幅不同拍摄角度的车辆图像。

Vehicle Color 数据集包含 15601 幅、8 种颜色的车辆图像。Vehicle Color 数据集中所有图像均来自道路监控拍摄得到的正面图像,同时图像采集环境变化较大 (光照、天气等),数据集中同时存在多种车型,例如卡车、轿车、公交车等。

Com Car 数据集的监控子集 Sv_Dataset 同样可以用来评测车辆颜色识别算法。 Sv_Dataset 数据集包含 44 481 幅车辆图像,包括黑、白、红、黄、蓝、绿、紫、棕、香槟、银共 10 种颜色,其中黑色车辆图像最多,为 14 911 幅,紫色车辆图像最少,为 221 幅。此外,由于监控数据采集的时间跨度较大,导致数据集中图像光照变化明显,因此存在无法进行人工标注颜色的 40 幅车辆图像。

表 3 Vehicle Color 数据集上不同算法性能对比
在这里插入图片描述

通过对表 2、3 进行分析可以发现,车辆识别的改进过程,都是以从浅层到深层、从全局到局部的方式完成的。每一阶段的技术提升都一定程度上促进了车辆识别精度的提高。

为了解决好数据集构建过程中的选择偏好、拍摄偏好、负样本集偏好等关键问题 [72] ,研究者们通常从实际环境下的监控视频中截取所需图像,以减少以上问题的干扰。同时,还可以看出,随着数据集中车辆类别的增加,车辆类间的差异越来越小,再加上图像中车辆的角度、尺寸的变化,以及采集环境的变化等客观因素的存在,这些都直接对识别算法的鲁棒性和准确性提出了更高的要求。

4 总结与展望

设计一个轻型化的车辆识别专用网络。
小样本同样是制约技术发展的一个重要问题。
跨视域的车辆再识别研究正在成为车辆识别领域中新的热点问题,良好的车辆特征表达和距离学习方法将成为研究重点。

References

Looking at Vehicles on the Road: A Survey of Vision-Based Vehicle Detection, Tracking, and Behavior Analysis
Traffic surveillance: A review of vision based vehicle detection, recognition and tracking
深度学习的昨天、今天和明天
深度学习研究综述
深度学习:开启人工智能的新纪元
Vehicle Color Recognition on Urban Road by Feature Context
Vehicle Color Recognition using Convolutional Neural Network
ImageNet Classification with Deep Convolutional Neural Networks
Gradient-Based Learning Applied to Document Recognition
Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition
Deep Residual Learning for Image Recognition
Deep Learning
Visualizing and Understanding Convolutional Networks
3D Object Representations for Fine-Grained Categorization
A Large-Scale Car Dataset for Fine-Grained Categorization and Verification
Vehicle Color Classification Under Different Lighting Conditions Through Color Correction

WORDBOOK

correction [kə’rekʃ(ə)n]:n. 改正,修正

KEY POINTS

特别是深度学习技术应用于图像分类以后,在训练数据足够多的情况下,通常可以很容易地获得很好的识别效果。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值