- chineseOCR识别的速度相对于PaddleOCR较慢,单纯使用CPU对于单张火车票的识别时间可以达到20秒以上。
- PaddleOCR对于火车票的识别时间很快,一般控制在2秒到5秒左右
二、内存占用量
- Chneseocr模型体积非常大,在CPU下运行非常占内存,经常会出现测几张就内存崩溃的现象
- PaddleOCR模型很小,运行时不耗内存,可以畅通无阻的测试很多图片
Chineseocr的准确度很高,经过火车票信息结构化识别代码及参数优化可以达到90%以上,但存在的问题如下:
- 1)对于细节的文字捕捉能力不强,尤其是在提取红色通道之后,有部分出发站及车次会识别出错。例如杭州东会因“东”字体模糊,识别为“杭州乐”
- 2)对复杂文字的识别会出错,例如“缙云”会识别为“当云”
PaddleOCR的准确度一般。
- 存在问题:
- 1)火车票识别中的出发站和到达站,即使提取红色通道,依然对串行的出发站识别不理想,而且红色的字体还是可以识别出来,很容易和车次混淆。
- 2)对复杂汉字的识别能力不强,例如“溧阳”会识别为“澳阳”。
- 3)PaddleOCR没有合并同行文字的功能,会导致文字顺序出现颠倒情况。尤其是在火车票不是正方向横放的图片时,例如竖向或倒置的火车票,会直接混淆出发站和到达站。在补票的信息获取中,还会更多的出错。
- 4)对于部分显而易见的字,检测不出来,检测参数没办法和ChineseOCR一样可以根据火车票信息做一定的调整和优化。
- 优点:对于磨损的字体及图片处理过的英文字母,识别能力要超过ChineseOCR。
五、OCR评测过程
对114张火车票进行测试,抽取其中最具代表的火车票举例
原图1: 001
ChineseOCR的识别检测
PaddleOCR的识别检测
文字识别输出结果:
火车票结构化识别结果:
原图2:008-2
ChineseOCR的识别检测
PaddleOCR的识别检测
文字识别输出结果: