Multi-digit Number Recognition from Street View Imagery using Deep Convolutional Neural Networks.
Ian J. Goodfellow, Yaroslav Bulatov, Julian Ibarz, Sacha Arnoud, Vinay Shet.
ICLR 2014.
模型介绍
本文利用CNN进行门牌号识别,并且规定序列最大长度为N(实验设N=5)。最后一层包含6个softmax,第一个softmax预测是的序列长度L,L可取7个值:{0, 1, 2, 3, 4, 5, 大于5}。后面5个softmax分别表示对应位置上的数字,每个位置上的数字可取10个值:{0, 1, 2, 3, 4, 5, 6, 7, 8, 9}。在训练时,对于digit不存在的位置,不反向传播任何误差信息。对于存在的digit和L,其误差为常见的负log似然。本文所用网络结构如下所示:
文中第一个卷积层使用maxout激活函数,其他层用ReLU激活函数。这里修改成所有层都使用ReLU激活函数。
数据集:
SVHN数据集