LPRNet: License Plate Recognition via Deep Neural Networks

最新推荐文章于 2025-03-12 12:38:07 发布

cdknight_happy

最新推荐文章于 2025-03-12 12:38:07 发布

阅读量1w

点赞数 6

分类专栏：深度学习

本文链接：https://blog.csdn.net/cdknight_happy/article/details/93972932

版权

深度学习专栏收录该内容

27 篇文章

订阅专栏

提出了一种名为LPRNet的实时车牌识别方法，该方法无需预分割字符，适用于中国车牌，识别准确率高达95%。LPRNet采用轻量级卷积神经网络，可在多种硬件上实时运行，包括CPU、GPU和FPGA。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

论文：https://arxiv.org/abs/1806.10447?context=cs
代码：https://github.com/sirius-ai/LPRNet_Pytorch

0 摘要

本文提出了LPRNet - 无需进行初步的字符分割的端到端自动车牌识别方法。我们的方法受到深度神经网络近期突破的启发，对中国车牌识别准确度高达95％，可以实时处理，在NVIDIA GeForce GTX 1080上每个车牌处理时间3 ms，在Intel Core i7-6700K上每个车牌处理时间1.3 ms。

LPRNet由轻量级卷积神经网络组成，因此可以以端到端的方式进行训练。据我们所知，LPRNet是第一个不使用RNN的实时车牌识别系统。因此，LPRNet算法可用于为LPR创建嵌入式解决方案，即使在具有挑战性的中国车牌上也具有高精度。

1 介绍

在这里插入图片描述
自动车牌识别是一项具有挑战性的重要任务，可用于交通管理、数字安全监控、车辆识别、大城市停车管理。这个任务是一个复杂的问题，受很多因素的影响，包括：图像模糊，光照条件差，车牌号码的变化（包括特殊字符，例如中国，日本的标志），物理影响（变形），天气条件（参见图1中的一些例子）。

强大的自动车牌识别系统需要应对各种环境，同时保持高精度，换句话说，该系统应该在自然条件下运行良好。

本文解决了车牌识别问题，并介绍了LPRNet算法，该算法设计用于无需预分割的字符识别。在本文中，我们不考虑车牌检测问题，但是，对于我们在实验中通过LBP级联来完成车牌检测。

LPRNet基于深度卷积神经网络。最近的研究证明了卷积神经网络在许多计算机视觉任务中的有效性和优越性，如图像分类、目标检测和语义分割。但是，在嵌入式设备上运行这些任务应仍然是一个具有挑战性的问题。

LPRNet是一个非常有效的神经网络，只需0.34 GFLops即可进行单次正向传输。此外，我们的模型是英特尔酷睿i7-6700K SkyLake CPU的实时模型，在具有挑战性的中国车牌上具有高识别精度，并且可以进行端到端的训练。此外，LPRNet可以部分移植到FPGA上，可以释放部分CPU资源用于其他操作。我们的主要贡献可归纳如下：

LPRNet是一个高质量车牌识别的实时框架，支持模板和字符独立的可变长度牌照，执行LPR而无需预先分割字符，可从头开始端到端地训练不同国家的牌照。
LPRNet是第一种不使用回归神经网络的实时方法，足够轻量化可以在各种平台上运行，包括嵌入式设备。
LPRNet在实际交通监控视频中的应用表明，我们的方法足够强大，可以处理困难的情况，例如透视和相机相关的失真，照明条件差和视点变化等。

2 相关工作

在早期的一般LP识别工作中，如[1]，处理流程包括字符分割和字符分类两个阶段：

字符分割通常使用不同的手工算法，组合投影、连接和基于轮廓的图像组件。它采用二进制图像或中间表示作为输入，因此字符分割质量受输入图像噪声、分辨率、模糊或变形的高度影响。
字符分类通常使用针对LP字符集的光学字符识别（OCR）方法。

由于先进行字符分割后进行分类，因此端到端识别质量在很大程度上取决于应用的分割方法的优劣。为了解决字符分割问题，提出了基于端到端卷积神经网络（CNN）的解决方案，将整个LP图像作为输入并产生输出字符序列。

[2]中的无分割模型基于由临时连接分类（CTC）损失驱动的可变长度序列解码[3,4]。它使用构建在二值化图像上手工设计的LBP特征作为CNN的输入，以产生字符类概率。通过滑动窗口方法应用于所有输入图像位置，将其输出用于基于LSTM[5]的解码器的输入。由于解码器输出和目标字符序列长度不同，因此CTC不需要预分割的端到端训练。

在我们的方法中，我们避免在二值化图像上使用手工制作的特征 - 而是使用原始RGB像素作为CNN输入。处理滑动窗口CNN输出的基于LSTM的序列解码器被全卷积模型替换，该输出被解释为用于CTC损失训练和贪婪或前缀搜索串推断的字符概率序列。为了获得更好的性能，预解码器中间特征图通过[12]中描述的全局上下文嵌入来增强。此外，使用由SqueezeNet Fire Blocks [13]和[14,15,16]的Inception结构设计了低计算成本的基本构建块，主干CNN模型显著减小。批量标准化[17]和Dropout [18]技术用于正则化。

LP图像输入大小影响计算成本和识别质量[19]，因此在使用高[6]或中等[7,2]分辨率之间存在折衷。

3 LPRNet

3.1 网络结构

最近的研究倾向于使用强大的分类网络的一部分，如VGG，ResNet或GoogLeNet作为他们的任务的“骨干”，通过应用迁移学习完成自己的任务。但是，这不是构建快速轻量级网络的最佳选择，所以在我们的工作中，我们应用了最近发现的架构技巧重新设计了骨干网络。

CNN模型主干的基本构建块（表2）的灵感来自SqueezeNet Fire Blocks [13]和[14,15,16]的inception块。我们还遵循最佳研究实践，在每次卷积操作后使用批量标准化[17]和ReLU激活函数。

简而言之，我们的设计包括：

具有空间变换器层[8]的定位网络（可选）
轻量卷积神经网络（骨干）
每个位置的字符分类头
进一步序列解码的字符概率
后过滤过程

首先，输入图像由空间变换器层预处理，如[8]中所提出的。此步骤是可选的，但允许探索如何将输入图像进行空间变换以具有更好的进行识别。最初的LocNet（参见表1）结构用于估计最佳转换参数。

在这里插入图片描述
骨干网络架构如表3所示。该网络以原始RGB图像作为输入并计算空间分布的丰富特征。最后一层使用了宽卷积（1×13内核）利用了局部字符的上下文信息而不是使用了基于LSTM的RNN。骨干子网络的输出可以被解释为一系列字符概率，其长度对应于输入图像像素宽度。由于解码器输出和目标字符序列长度不同，我们应用CTC损失方法[20] - 用于无需分割的端到端训练。CTC损失是一种众所周知的方法，用于解决输入和输出序列未对齐且长度可变的情况。此外，CTC提供了一种从每个时间步的概率到输出序列概率的有效方法。关于CTC损失的更详细解释在[20]。

为了进一步提高性能，使用[12]中的全局上下文嵌入增强了预解码器中间特征映射。它通过骨干输出上的全连接层计算，平铺到所需大小并与骨干输出连接。为了将特征图的深度调整为字符类编号，应用附加的1×1卷积。

对于推理阶段的解码过程，我们考虑了两个选项：贪婪搜索和beam搜索。虽然贪婪搜索在每个位置获取最大类概率，但是beam搜索最大化输出序列的总概率[3,4]。

对于后期过滤，我们使用面向任务的语言模型作为一组目标国家LP模板实现。请注意，后过滤与Beam Search一起应用。后过滤程序获得通过beam搜索找到的前N个最可能的序列，并返回与预定义模板集合匹配的第一个序列，该模板取决于LP规则。

3.2 训练细节

所有训练实验都是在TensorFlow [21]的帮助下完成的。

我们使用Adam优化器训练我们的模型，批量大小为32，初始学习率为0.001，梯度噪声系数为0.001。我们在每100k次迭代后将学习率降低10倍，并对我们的网络进行总共250k次迭代训练。

在我们的实验中，我们使用随机仿射变换的数据增强，例如，旋转、缩放和平移。

值得一提的是，从训练开始应用LocNet会导致结果退化，因为LocNet无法从识别器中获得合理的梯度，而识别器通常对于前几次迭代来说太弱。因此，在我们的实验中，我们仅在5k次迭代后才开启LocNet。

我们通过目标数据集上的交叉验证来选择所有其他超参数。

4 实验

LPRNet基线网络，我们从不同的架构开始我们的实验，受到[2]的启发。它主要基于Inception模块，然后是双向LSTM（biLSTM）解码器，并使用CTC损失训练。我们首先进行了一些旨在用biGRU块替换biLSTM的实验，但是我们没有观察到使用biGRU比biLSTM有任何明显的好处。

然后，我们专注于消除复杂的biLSTM解码器，因为大多数现代嵌入式设备仍然没有足够的计算和存储来有效地执行biLSTM。重要的是，我们的LSTM应用于空间序列而不是时间序列。因此，所有LSTM输入在训练阶段和推理阶段都是预先知道的。因此，我们认为RNN可以被空间卷积取代而不会显著降低精度。具有一些主干修改的无RNN模型被称为LPRNet基础，并且在第3部分中详细描述。

为了提高运行时性能，我们还通过对所有池层使用2×2步幅来修改基础LPRNet。此修改（LPRNet简化模型）显著减小了中间特征图的大小和总推理计算成本（参见表4的GFLOP表）。

在这里插入图片描述