为了用深度学习来训练一个车牌识别的字符识别模型,首先需要解决的问题是处理数据的问题,为了能够把数据传入到网络里进行训练,我这里使用的one_hot编码,具体的细节如下:
首先准备数据集:
一部分自己的数据集,一部分是 Easypr的数据集(后500张图片作为测试集,其他的作为训练集)67617张类别:65类
0-9共十个类,A-Z共二十四个类(除了O,I),
中文汉字共三十一个类( '鄂','赣','甘','贵','桂','黑','沪','冀','吉','津','晋','京','辽','鲁','蒙','闽','宁','青','琼','陕','苏','皖','湘','新','豫', '渝','粤','云','藏','浙')
归一化:
将每张输入字符图片大小归一化为20X20,并转成灰度;
图片的命名格式:
将数据集中的图片命名为label.num.jpg(比如:0.0.jpg),目的是在于更方便的取得图片的标签与图片;
省份使用拼音字符串存储ÿ