用于提高车牌识别的单幅噪声图像去噪和校正

点击上方“小白学视觉”,选择加"星标"或“置顶

重磅干货,第一时间送达

2e405f72f30fb9a93e5038d0a865f612.png

下面要介绍的论文始发于ICCV2019,题为「SNIDER: Single Noisy Image Denoising and Rectification for Improving License Plate Recognition」,axriv地址:https://arxiv.org/pdf/1910.03876 。

在本文中,我们提出了一种用于从真实世界中的低质量图像中进行车牌识别的算法。我们的算法建立在降噪和校正的框架上,并且每个任务都是由卷积神经网络来执行。在先前的研究中,降噪和校正任务分别被一个神经网络来处理。不同以往,我们提出了一种可训练的端到端的图像恢复网络,即“单噪声图像降噪和校正”网络(SNIDER),致力于一起解决这两个问题。此外,我们提出了一种利用辅助任务优化多任务训练损失的方法。在两个具有挑战性的LPR数据集AOLP-RP和VTLPs进行了大量的实验,证明了我们提出的方法的有效性,并且在从低质量的车牌图像中恢复高质量的车牌图像时本方法优于其他的SOAT方法。

一、研究背景

真实世界中的车牌识别(LPR)是多种智能运输系统(ITS)应用程序,如车辆重识别,户外场景理解,用于隐式保护的去识别等的基本问题之一。过去几年,LPR已经在理论,实验和数理方面得到了广泛的研究,以提供鲁棒的图像特征表示。一些LPR方法可以捕获图像和噪声的结构属性,以进行严格的约束。虽然已经取得了一些成果,但由于外观,噪声,角度和光照的变化,在野外进行车牌识别仍不能取得令人满意的效果。近年来,由于卷积神经网络的发展,许多计算机视觉任务取得了很大进步例如目标检测,语义分割,人脸识别等。同时CNN引导的LPR方法也被广泛用于解决识别现实世界中捕获的车牌。然而,现有的LPR方法仍然无法学习到野外所有类型的样本,这些算法实际上是将高质量的图像作为输入。通常,在现实世界中收集的车牌可能包含质量很低的图像,从而导致LPR性能下降。因此,在真实世界场景中开发鲁棒的LPR框架是必要的。

在本文中,我们基于多个辅助任务设计了一个端到端的单噪声图像降噪和校正网络(SNIDER)以实现更好的LPR。Figure1展示了我们的框架,其中SNIDER和预训练的LPR网络(这里是基于Darknet的YOLOV3网络)相结合。SNIDER包括两个子网络:降噪网络和校正网络。基于U-Net在恢复图像细节方面的成功,我们采用U-Net结构作为图像恢复骨干网洛,尝试从结构级别的细节中提取视觉内容。在去噪子网络(DSN)中,我们尝试将低质量的图像直接逐像素地转换为高质量的图像。DSN可以惩罚噪声和无噪声图像对之间的损失,从而获得无噪和有精细纹理的输出图像。但仅仅使用DSN,去噪图像仍不能令人满意,因为图像仍然具有随机的几何变化。因此,校正网络(RSN)被提出用于校正去噪后车牌图像的几何畸变。此外,我们提出利用新的辅助任务进一步优化SNIDER的DSN和RSN网络。一共有两个辅助任务:一个文本计数模块和一个分割预测模块。具体来说,我们使用CNN作为编码器来解决每个辅助模块。计数模块用来预测图像中的文本数量,被当作分类问题。在此模块中,尽管连续文本的边界模糊,文本计数模块仍可区分单个文本,从而使图像质量更适合于文本检测。在分割预测模块中,我们提出了一种二值分割方法来强调前景而不是背景,生成的分割结果使得车牌更加干净以进行文本识别。最后,学习辅助任务将引导图像恢复网络的中间特征,从而增加几何变化和低质量信息等困难。更重要的是,我们引入了新的损失函数,用于训练SNIDER和辅助任务,为LPR提供了更高质量的车牌数据。

fd6083798376fab7d1420f9cdbeb6772.png

Figure 1

二、相关工作

在本节中,我们简要回顾与这项工作最相关的低质量图像恢复方法和车牌识别方法。

2.1低质量图像恢复

为了获得高质量的图像,大多数现有的方法都依赖于这样的假设:信号和噪声都是通过手工算法从特定的统计规律中产生。此外,一些非参数模型被开发来模拟图像噪声,但由于有限的观测结果,它们对野外不受约束的环境并不具有鲁棒性。近来,由于深度学习的发展,大多数降噪算法都是采用深度神经网络体系结构和数据驱动的方法设计的,而非依靠先验技术。尽管文本分类器对于清晰图像很有用,但由于文本几何形状不规则,因此仍难以识别。与现有方法不同,我们使用基于U-Net的CNN对图像进行去噪和校正。据我们所知,我们的研究可能是首个将上诉两个模块同时应用于LPR。

2.2 车牌识别

在深度学习出现之前,大多数传统的LPR方法都采用双阶段的处理流程,包括文本检测和文本识别。随着深度学习的发展,许多方法采用了单阶段流程即不进行文本检测。Li等通过将RNN与LSTM结合来提取深层特征表示,以获取车牌的连续特征。Bulan等基于完全卷积网络估计目标域和多个原域之间的域转换,以产生具有最佳识别性能的域。但这些方法仅考虑高质量的车牌图像,这容易导致模型在现实场景中性能下降。而且这些方法很少努力去改善图像样本质量,同时也占用了大量计算力。在我们的工作中,我们在真实场景中采用低质量图像恢复以提升LPR的性能。这是我们首次应用复杂的图像恢复技术来处理有挑战的真实环境,虽然有额外恢复模块,但我们的方法仍具有较高的计算效率和实时识别能力。

三、方法

我们提出的方法由三部分组成:1)主任务预测网络包括去噪网络3adce218e44a0196aaf94b41d9b1a3be.png和校正网络e7a2c1d57487b4fcb6741e2adbac1bb1.png。2)辅助任务预测网络包括文本计数分类网络ad28cc8cd8df5a0426ace495e3694345.png和分割网络0e2ec24ed5c1afdfdc19ceda23c0c75a.png。3)用于文本检测和分类的网络LPR。整个框架可以用Figure2来表示。

d55fddd10cd1073f504eade9155a8dcc.png

Figure 2

在训练中,用于主任务和辅助任务的数据集可以通过简单旋转(用于校正)和缩小尺寸(用于降噪)获得,如图Figure3所示。

2cb345761b61bcf7cb25cd64997afa36.png

Figure 3

具体来说,一张原始图像f80c94d266bc9e6c604642aec3dd599a.png通过旋转不同的角度可以产生四张训练图像,其中3c6438bd2a65af8455e521ce66fd912c.png用于57a7ac14a2ef291da999a7897a4f5499.png1dbd43357a8a7fd216a393ea47c8d819.png用于aaa7036db4c6cff0f55690d29ab945ba.png8b8e9aa5ecb3b0ef60b656b57d20f402.png用于b055b83d27fb2864f0006e76300becc8.png,c用于6bbee4232b85acb539c83f612b1ff10a.pngdb16fbe8656d94aeaac14de5b6d48111.png,主任务的0165b633d9e64016bb8ea284d1ebe7f1.png897b2d661fa82eaf04571662c887c72b.png网络从输入图像7afe10675462f60c82a4f1b792d7cc1d.png恢复为高质量图像。然后,LPR网络获取394d4d37e190aa48b8dd9da8884ec235.png进行文本检测和识别。

3.1去噪和校正网络

我们的主任务网络包括两个子网络(即去噪子网络和校正子网络),第一个子网络以低质量图像为输入,输出为恢复图像。在本文中,我们设计了校正网络对来自降噪网络的输出结果进行校正。图像恢复结果[15]显示了U-Net的有效性,因为它可以提升图像中目标的细节信息,而不会对图像生成产生负面影响。因此,我们采用基于U-Net的结构,同时添加了跳跃连接,可以共享图像低级语义信息。

为了实现主任务,我们首先将499a551db7e12bab6574aae4d87635a3.png输入到68c4078ee1b2d6bd8b4ea3ff688aa3c7.png网络产生去噪后的结果。给定一对输入图像和未校正的去噪标签图像eb0d9784c798b61801075658fa95ff15.png6c2f221a17665aa857c6a35149ded5b7.png的损失函数是逐像素的MSE损失,如等式(1)所示:

a181e75fca6fc911e5866269d07951ba.png

其中879a4d015a6bc6e6b3cde672590c3865.png是去噪网络的参数。这种损失函数让网络不仅能提取输入图像语义信息也能生成像素级的高质量图像。然后校正网络4b5f681a055b51bd94a6ae6f17e0179a.png802c0547eb90ae843ac07cb53c85c7d6.png的输出开始处理,产生校正后的高质量图像,以更有利于LPR网络进行文本识别。训练图像对用ad548265f10947b0197649a3e82af90e.png表示,43358591432a5f3240a8692bdfa3e528.png网络使用L1损失函数,如等式(2)所示:

50cf995cd440dc28d1f244ff3445f907.png

其中w是校正网络的参数。

和L2损失不同,像素级别的L1损失有助于保留目标的外观,例如图像颜色,亮度等。因此,在校正过程中,我们只会进行几何变换而不会对图像造成外观损伤,这对识别器是有用的。

3.2辅助任务预测

由于真实环境的复杂性,如文本的几何形态及其不规则,图像背景很复杂等导致车牌的二值化信息往往存在噪声。尽管我们希望28715a028b6acd4d50613a249d2b823d.png48a19c34f7662af5f2395c5eccf16949.png可以捕获鲁棒的特征来进行图像恢复,但是这种结构的结果并不能总是保证有良好的图像质量提升输出。因此,我们使用了两个辅助任务,即二值分割和计数估计,这将有助于我们的主任务网络产生更具区分性的代表特征。针对这个问题,我们将编码器最后一层的权值相加,以指导辅助任务网络更有效地从低质量图像中提取关键信息。

对于二值分割任务,我们介绍基于U-Net结构的分割解码器40367b2145ddcf908ed7ac6f88d0aacf.png1d24da86b5c3bd8e97f6f20fd870e865.png的细节如Table1所示:

89f6263051e373587bdc0285981d87af.png

bbca726fc7224ed8021ba67eea107001.png接收主任务编码器求和后的特征集F并输出车牌分割结果,每个像素位置的值代表该像素值属于车牌区域的概率。此外,用于分割的标签样本可以使用论文[4]中的OTSU算法得到,如Figure3所示。虽然[4]中的分割注释不能完全反映图像的实际细节,但我们的实验表明,这种辅助学习的策略在图像恢复方面取得了有效的进展。给定F和语义分割标签fd5710414c0f4ea24ad6e91295e3ebcc.pngf9294a01bc03e8d0f437e819e529c2a6.png

的损失函数为二元交叉熵损失,如公式(3)所示:

f9af896a316f0b52185d9f7ab753a68e.png

其中80d2c9367ada9e29ddbf533853d751a6.png代表9101c954e717e0e694c0cf63d544ab18.png是否属于车牌区域。

同时,我们发现恢复的样本通常不能区分连续的文本。所以我们增加了一个计数解码器7af7569aabc0420220558e38eefaad3c.png来预测图像中字符的个数。因此,我们的bd8fead3bcc9cfbf19229dfdfff4f473.png扮演两个角色,第一个是使得相邻字符之间的分割更加清晰,另外一个角色是促进每个主任务的编码器产生更高质量的图像。70e44230bdb8a770dd2247407c342356.png的损失函数为L2损失,如公式(4)所示:

ffc48680d7ad2d93267b39034422daaf.png

其中,a09ba88947f67345d3316bf8a77ce3c7.png是预测值,0d1e965be19ef4e79efe9ca7c8f2d210.png是标签。

最终网络训练的损失函数如公式(5)所示:

a73d0cee14dc888875e6cc4037ce3276.png

优化此损失函数更新网络的参数即可。

四、结果

我们在两个大型的车牌数据集AOLP-RP和VTLPs上测试了我们的算法,我们在AOLP数据集上达到了惊人的99.18%的准确率,相比于直接使用YOLOV3做检测提升了近10个点,证明了我们算法的鲁棒性和有效性。在两个数据集上的测试结果如表Table3和Table4所示:

285f18e7ff8f27a366d191ef751725e5.png

我们的算法在精度SOAT的同时,速度也可以达到实时,具有较好的实用价值。测试结果如图Table5所示:

47489e16f04c49f7d72d6f72efe5b056.png

五、结论

本文提出了一种新的端到端的可训练的图像恢复方法用于真实世界中的车牌识别。我们提出的恢复网络由两个子网络组成,即去噪子网络和校正子网络。特别地,我们设计了使用两个辅助任务来协助车牌图像恢复网络,从而使得恢复网络提取的特征更加鲁棒,以对抗现实场景中的几何变化和模糊数据。此外,一个新的损失函数被引入到骨干网络中,以提供正则化影响和提高恢复图像质量。在各种数据集上进行的广泛实验证明了在车牌恢复和识别方面的卓越性能。

下载1:OpenCV-Contrib扩展模块中文版教程

在「小白学视觉」公众号后台回复:扩展模块中文教程即可下载全网第一份OpenCV扩展模块教程中文版,涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。

下载2:Python视觉实战项目52讲

在「小白学视觉」公众号后台回复:Python视觉实战项目即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目,助力快速学校计算机视觉。

下载3:OpenCV实战项目20讲

在「小白学视觉」公众号后台回复:OpenCV实战项目20讲即可下载含有20个基于OpenCV实现20个实战项目,实现OpenCV学习进阶。

交流群

欢迎加入公众号读者群一起和同行交流,目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群(以后会逐渐细分),请扫描下面微信号加群,备注:”昵称+学校/公司+研究方向“,例如:”张三 + 上海交大 + 视觉SLAM“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~

c542de337f33320d904bec3662ab4324.png

11ac8331f9478f3bc6aaf71abc2413b3.png

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值