Learning A Repression Network For Precise Vehicle Search

 

摘要

公共安全领域视频监控数量爆炸性的增长将大规模车辆数据库的检索技术推到风口浪尖。精准车辆检索需要根据输入的查询图片查找出所有目标。车辆检索的难度在于相同视觉特征的车型之间可能十分相似。为了解决这个问题,文章提出了RepNet,一种多任务的网络结构来同时学习每个目标的大体特征与精细特征。此外受益于特征分类的高准确率,提出了一种bucket search方式来减少检索时间,并基本保持准确率。实验在优化过的VehicleID数据集上进行。实验表明,RepNet达到了state-of-art表现,bucket search方法提升了约24倍检索时间。

1、Introduction

目前,公安系统对大规模监控图像和视频数据库的车辆图像检索和再识别的需求呈爆炸式增长。车牌自然是车辆的唯一ID,车牌识别已经在交通管理应用中得到了广泛的应用。不幸的是,在某些情况下,我们不能仅仅根据车牌来识别车辆。首先,有些监控摄像头并不是专门为车牌拍摄而设计的,即摄像头的分辨率不够高,无法清晰地显示车牌上的数字。其次,当车牌识别系统对“8”和“B”、“O”和“0”、“D”和“O”等容易混淆的字符进行分类时,车牌识别系统的性能急剧下降。最重要的是,车牌往往很容易被遮挡,删除,甚至伪造,这使得车牌与每辆车的相关性更小。因此,基于视觉属性的精确车辆检索,利用从车辆外观中获取的信息,在不同的监控摄像头视图中发现同一辆车辆,在现实应用中具有很大的实用价值。

虽然车辆检索和重识别问题已经讨论多年,大多数现有的工作依赖各种不同的传感器【2】和只能用于检索车辆共享同一coarse-level属性(例如颜色和模型)而不是完全的查询图像。与其他常见的检索问题如人脸和人检索相比,由于共享一个或多个视觉属性的车辆具有非常相似的视觉外观,因此车辆检索可能更具挑战性。换句话说,即使使用coarse属性的分类结果,我们仍然无法知道车辆的确切ID。然而,也有一些特殊的标志,如定制的图案,装饰,甚至划痕等,可以用来从其他类别中识别出车辆。因此,精确的车辆检索算法不仅要能够捕捉到每辆车的颜色、模型等粗粒度属性,而且要能够学习到代表每辆车独特细节的更具鉴别性的特征。

2、Related work

随着CNN的迅速发展,图像理解算法翻天覆地的变化。提出了许多算法通过学习关键部分的特征,提升不同类别特征的区别,提升分类准确率,或者使用度量学习降低类间变化问题的影响。然而,这样的模型不能很好的处理精确检索这一类的问题。例如,使用例如车型、年款、颜色这样属性训练的模型很难区分同一车型的区别。为了克服这类问题,一个潜在的方式是结合类似contrastive或者triplets等相似性约束。这类特征可以很好的表达细节特征却在属性特征上表现不好。值得注意的是triplet约束在人脸识别与检索上广泛应用多年,因为它可以保持类间的区分度。

因此直觉上来说可以通过结合分类特征与相似性约束来建立一个基于CNN的多任务框架。有些文献中结合softmax与contrastive loss联合优化,有些通过结合softmax与triplet loss得到更好的结果。这些模型之所以改善了传统CNN是因为相似性约束在训练过程中扩展了特征内容。此外,有些方法级联不同层的特征来提升特征的表达能力。然而,这些方法都有自己的局限性。首先,他们没有将不同任务的区别纳入考虑范围,因为所有浅层的卷积特征与fc层都是共享的。因此,不相关约束不能独立处理,更难的任务不能用更深的网络来处理,不同约束项关系是不可控的。其次,相似性约束与分类约束都是直接作用到最后一层全连接特征上,因此两种约束可能同时约束部分相同特征。分类约束设计用来学习同一类别相同的特征,相似性约束用来捕捉不同个体独特的特征。这样不仅会限制相似性约束的效果,还可能导致模型不收敛。

为了解决上述问题,论文提出了RepNet,在卷积层后使用两路全连接层来处理两个不同任务:属性分类与度量学习,用Repression层连接两路特征。较为浅层的特征用于属性学习。因此,相对较浅的属性分类流生成的特征可以作为反馈,监督后续的相似性学习,使其在不嵌入太多属性信息的情况下,更好地关注特殊细节。如图1第三至第五列所示,不同的任务确实关注于车辆的不同部分,从相似性约束(col 5)中学习到的特征与从分类约束(col 3和4)中学习到的特征几乎没有相关性。

此外,由于双路结构,文中引入了bucket search策略来在保证精度的前提下大幅度提升检索速度。我们还用一个新的属性丰富了“vehicleId”数据集【1】,并对其进行了扩展检索实验。

3、The Proposed Approach

3.1 Repression Network

其他深多任务学习模型的和Repression网络主要区别是我们分开后的全层(FC)层深卷积结构为两个流,一个基于标签的属性分类(分类属性流,ACS)。softmax损失函数和注重细节的相似性学习(学习流相似,SLS)三联体损失函数【11】。然后在两个流之间添加一个Repression 层。如图3所示,通过将SLS中第一层的特性与ACS中最后一层FC的特性交互,Repression层将SLS与ACS连接起来。

设计这个模型的基本思路是我们希望网络能够产生两个不同层次的分支特征-coarse特征与细节特征,这样每个分枝特征可以包含更多不同层级有区分度的信息用来进行更精确的检索任务。例如,如果需要检索的样本如图1左上第一张,我们可以首先第一步从数据库中找到所有灰色的大众速腾轿车作为候选,之后通过用户涂装、装饰、划痕或者其他特别特征来缩小范围。对于车辆来说,粗粒度特征与细节特征通常是独立的,例如停车证或者划痕既有可能出现在白色起亚轿车上,也可能出现在白色本田SUV上。这也是为什么我们可以为他们使用两个不同的分支。此外根据之前的实验结果,粗粒度特征学习比相似度学习要容易得多,例如之前的多任务学习框架比之前的收敛快得多,并且可以得到更高的准确率。因此,我们设计的网络在ACS中FC层

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值