前言
场景分析:识别用户上传的图片中的文本
存在的问题:
1、图片倾斜导致ocr识别不准
2、图片颠倒,导致识别出来的文本,顺序错乱
3、图片尺寸太大,识别效率太慢
4、部分图片模糊,导致识别准确率率下降
一、初步解决方案
1、矫正图像:
- 二值化后,寻找外接矩形边缘线,计算角度------鲁棒性差
- hough变换-------效果太差
- radon变换------目前效果最好
由于用户拍照场景比较复杂,导致几种典型的算法均不适用,目前效果最好的为radon变换,60%的矫正准确率。
2、缩放图像:
- 对于尺寸大于2000 * 2000的图像,缩放至(h * 0.5,w * 0.5)识别准确率有所提升
- 对于尺寸小于2000 * 2000的图像,缩放至(h * 0.5,w * 0.5)识别准确率下降
因此,2000 * 2000的size是图像是否进行缩放的一个临界点
3、提高图像对比度:
- 理论上,提高图像的对比度能使像素分布更均匀,使白的更白,黑的更黑。
此处有待进一步的测试
二、后续的优化方向
1、提高矫正准确率:
经过多轮测试发现,矫正后的图像,识别效果一定优于原图,因此,后续将着重于提高矫正准确率的工作
2、图像对比度增强:
在矫正准确率达到瓶颈后,会尝试对图像做一些预处理,以提高识别效果
总结
1、对于OCR,图像尺寸太大了效果反而更差
2、矫正图像,能有效提升OCR识别效果