1、文档图像角度倾斜矫正:1)霍夫直线检测,从直线方向的众数得到旋转角度;2)文字区域较小时可通过最小外接矩形得到旋转角度;
2、打印痕迹干扰,可使用双边滤波进行降噪,但不能完全去除;
3、图像退化,不清晰,可使用高反差得到文字轮廓信息,再与原图相加;
以上方法在tesseract里封装完成。降噪对于OCR非常重要。
1、文档图像角度倾斜矫正:1)霍夫直线检测,从直线方向的众数得到旋转角度;2)文字区域较小时可通过最小外接矩形得到旋转角度;
2、打印痕迹干扰,可使用双边滤波进行降噪,但不能完全去除;
3、图像退化,不清晰,可使用高反差得到文字轮廓信息,再与原图相加;
以上方法在tesseract里封装完成。降噪对于OCR非常重要。