如何利用图像预处理提高OCR的准确性？

最新推荐文章于 2024-07-16 11:29:03 发布

小白学视觉

最新推荐文章于 2024-07-16 11:29:03 发布

阅读量3.6k

点赞数

文章标签：计算机视觉 opencv 人工智能 python 图像识别

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_42722197/article/details/113980365

版权

本文介绍了如何通过图像预处理提高OCR的准确性。关键步骤包括图像缩放以达到300 DPI的分辨率，偏斜矫正以修复文本歪斜，二值化使图像适合OCR引擎，以及使用降噪技术消除图像噪声，从而改善OCR输出质量。

摘要由CSDN通过智能技术生成

点击上方“小白学视觉”，选择加"星标"或“置顶”

重磅干货，第一时间送达

OCR代表光学字符识别，将文档照片或场景照片转换为机器编码的文本。有很多工具可以在你们的系统中实现OCR，例如Tesseract OCR和Cloud Vision。他们使用AI和机器学习以及经过训练的自定义模型。文本识别取决于多种因素，以产生高质量的输出。OCR输出在很大程度上取决于输入图像的质量，这就是每个OCR引擎都提供有关输入图像质量及其大小的准则的原因，这些准则可帮助OCR引擎产生准确的结果。

图像预处理功能可以提高输入图像的质量，以便OCR引擎为我们提供准确的输出，使用以下图像处理操作可以改善输入图像的质量。

图像缩放

图像缩放比例对于图像分析很重要。通常，OCR引擎会准确输出300 DPI的图像。DPI描述了图像的分辨率，换句话说，它表示每英寸的打印点数。

def set_image_dpi(file_path):
    im = Image.open(file_path)
    length_x, width_y = im.size
    factor = min(1, float(1024.0 / length_x))
    size = int(factor * length_x), int(factor * width_y)
    im_resized = im.resize(size, Image.ANTIALIAS)
    temp_file = tempfile.NamedTemporaryFile(delete=False,   suffix='.png')
    temp_filename = temp_file.name
    im_resized.save(temp_filename, dpi=(300, 300))
    return temp_filenam

偏斜矫正

最低0.47元/天解锁文章

小白学视觉

关注

0
点赞
踩
30

收藏

觉得还不错? 一键收藏
打赏
3
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

小白学视觉 CSDN认证博客专家 CSDN认证企业博客

码龄6年

586: 原创

3450: 周排名

486: 总排名

588万+: 访问

: 等级

2万+: 积分

8718: 粉丝

5614: 获赞

903: 评论

4万+: 收藏

私信

关注

热门文章

分类专栏

最新评论

CNN 的一些可视化方法！
longkissคิดถึง: 将某一层激活，就可以进行后续的可视化分析了吧
使用 OpenCV 测量物体尺寸
vivid_yellow: 可以运行。感觉这一段会影响真实的尺寸啊： # Codeblock 12 def warp_image(rect_coords, paper_coords, img_original, pad=5): img_warped = img_warped[pad:warped_h-pad, pad:warped_w-pad] #3
使用 OpenCV 测量物体尺寸
vivid_yellow: 好几个代码块写在一行了，能够调整一下吗？你调整一下，省了其他人各一份时间
南京大学周志华教授：如何做研究与写论文？
君莫笑∽GL: 对论文署名要考虑的P.I.C的解释：一般情况下，按照贡献进行排序。通常由第一作者执笔，通讯作者是整个研究工作的负责人或者导师，小的贡献放在致谢里面，其他作者则按照其在P.I.C方面的贡献程度进行排序。 P（Position）：作者的职位或学术地位，例如教授、副教授、研究员等。 I（Importance）：作者在研究领域的重要性，例如是否是该领域的专家、知名学者等。 C（Contribution）：作者在该篇论文中的贡献，例如是否是主要贡献者、实验设计者、数据分析者
主成分分析（PCA）：通过图像可视化深入理解
保护我方腕儿: 代码的功能实读取原图的七个波段通道里的数据存到三维数组里吧？然后用imshow输出，会不会这个方法默认只用RGB三个通道显示合成图片？反正打印到电脑屏幕不也就三个通道足够了吗，可能电脑没有更高级的功能能把七个通道显示出来吧

最新文章

2024

目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

小白学视觉 您的赞赏是我们坚持下去的动力~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。