因为最近老师想让我们搞一个车牌识别的项目,目前想做的是 plate recognition in the wild 但是手里面目前还没有太多现实生活中的车牌的标注的数据,所以直接训练车牌的途经只好作罢。现在一个师妹在做的毕设是图片中的验证码的识别,从某公司那里拿到了好多验证码的图片,它们大多数长这个样子:
大约有几十万张程序自动生成的验证码图片,每张图片像素均为300*210,待识别的汉字带一点旋转角度,导师决定让我们先用OCR的方式试一试。
我们的使用了清华最近开源的一个中文数据库训练出来的baseline
- 官网:https://ctwdataset.github.io/
- Github: https://github.com/yuantailing/ctw-baseline
- Paper: https://arxiv.org/abs/1803.00085
此数据库相当庞大,在论文里面给了好几种方法实现的baseline,但是从Github里面clone出来的话主要有两种:一种是用yolo实现的,一种是用SSD实现的,clone来之后都要自己再编译一下!
可以直接用其训练好的model测试下,其论文中展示的结果图片的效果比较好,但是轮到我们做测试的话会发现对图片的误检还有漏检还满多的 ,下图为用pre-trained的model拿其测试图片来检测
毕竟这个项目的主要贡献还是如此庞大和复杂的有标注的中文数据库,所以现在的model也只能用来当一个baseline,大家也是还是主要要好好利用这个数据库来搞点事情!比如我们就打算用现有的五十多万张验证码的图片来对这个model进行finetunin