车牌识别“Towards End-to-End Car License Plates Detection and Recognition with Deep Neural Networks”

车牌检测和识别,很久没关注了。作者提出了一个一体化的深度网络,同时进行车牌的检测和识别,在识别时不需要字符分割,而是使用带有CTC的RNN网络,具体的实现细节在论文的参考论文【14】中。

模型首先使用卷积层应用到输入图像,之后提取车牌proposals,接下来使用RoI池化层和MLP进行车牌检测和bbox回归,同时使用带有CTC的RNN进行牌照识别,网络的结构如图1所示:
这里写图片描述

车牌检测网络:
车牌检测判断提供的RoIs是否为车牌,两个fc层加一个dropout层将特征图转化为向量,编码的特征用于车牌打分和bbox回归。

车牌识别网络:
为了避免进行字符分割,将车牌识别作为序列标记问题,带有CTC损失的双向RNN(BRNN),用于标记序列特征,如图2所示:
这里写图片描述
对于RoI池化后的特征,先经过两个卷积层,两个卷积层之间有一个矩形池化层,这对于识别窄字符有效,这些操作将车牌区域特征变换为序列 D×L ,D=512,L=19。使用 V=(V1,V2,...,VL) 表示。

BRNN应用到V,两个相互分离的RNN,其中一个前向处理特征序列,另外一个后向处理序列。两个隐含的状态级联一起,输入具有37个输出的线性变换中。接下来是Softmax层,将37个输出转换到概率,对应26个字母,10个数字及一个非字符类的概率。经过BRNN编码,特征序列转换到与L具有相同长度的概率估计 q=(q1,q2,...,qL) ,BRNN获取了丰富的上下文信息,字符识别将会更准确。为了解决RNN训练中的梯度消失问题,使用了LSTM。LSTM定义了记忆细胞,三个乘法门,可以选择性的保存信息。

CTC层被用来做序列解码,通过BRNN的输出序列寻找具有最大概率的近似最优路径,即,
这里写图片描述
π 是标记的序列,B算子用于一处重复的标记及非字符标记,示例为: B(aab)=B(aabb)=(aab) 。CTC具体的细节在论文【A novel connectionist system for unconstrained handwriting recognition】。根据CTC的损失函数,车牌识别的目标函数为网络输出正确标记的负log概率,即:
这里写图片描述
整个检测和识别网络多任务损失为:
这里写图片描述

实验结果
这里写图片描述

  • 1
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 18
    评论
近年来,半监督深度面部表情识别成为了人们关注的热点问题之一。在这个领域,研究人员一直致力于利用少量有标签的数据和大量无标签的数据来提高面部表情识别的准确性和鲁棒性。Adaptive是一种有效的半监督学习方法,它能够自适应地利用标签和无标签数据,使得深度学习模型在应用于面部表情识别时更加有效。 半监督学习是一种机器学习方法,利用少量有标签的数据和大量无标签的数据来训练模型。在面部表情识别中,往往很难获取大量有标签的数据,而无标签数据却很容易获取,因此半监督学习成为了一种有吸引力的解决方案。通过利用Adaptive方法,研究人员可以更好地利用无标签数据,提高模型的泛化能力和鲁棒性,从而提升面部表情识别的准确性。 Adaptive方法还可以帮助模型在数据分布变化时自适应地调整,使得模型更具灵活性和稳健性。在面部表情识别任务中,由于不同环境和条件下的面部表情具有差异性,Adaptive方法能够使模型更好地适应这种差异,提高识别的鲁棒性。 总之,半监督深度面部表情识别与Adaptive方法的结合,有望提高面部表情识别的准确性和鲁棒性,为人们提供更加高效和可靠的面部表情识别技术。相信随着更多研究和实践的开展,半监督深度面部表情识别将迎来更加广阔的发展前景。
评论 18
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值