提高pytesseract图片识别的准确度

最新推荐文章于 2025-04-13 20:33:43 发布

hustlearner

最新推荐文章于 2025-04-13 20:33:43 发布

阅读量6.1k

点赞数 1

分类专栏：代码检错与查重

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Mr__666/article/details/115359299

版权

代码检错与查重专栏收录该内容

35 篇文章

订阅专栏

目录

前言
一、图片二值化处理
二、样本训练
总结

前言

由于pytesseract提取图片的准确度太低，不足以提取代码以进行后续的检查，所以要提高图片识别的准确度。

一、图片二值化处理

对一个图片进行处理，使其更加容易被识别。

处理过程中发现生成的文件很小，没有什么内容，说明识别的过程出了问题。

后来使用cv2.threshold函数处理，可以把一个图片相对清楚地显示出来，但是要使不同的图片显示地更加清晰，要对应不同的阈值；
发现阈值的确定和图片的底色有关系。

对图片进行灰度处理，效果有提升但不明显：
在这里插入图片描述

二、样本训练

即丰富tesseract的语言库，使其更加熟悉我所要提取的内容（代码），进而提高识别的准确度。

需要下载jTessBoxEditor。

使用jTessBoxEditor.exe，选择样本图片，生成tif文件；
用管理员模式打开命令行输入指令：

tesseract.exe a.tif b batch.nochop makebox

a.tif为刚才生成的tif文件，生成文件b.box；
再用jTessBoxEditor.exe打开box文件进行调试：
在这里插入图片描述
需要手动调整每一个字符，过程十分繁琐；
修改完后保存tif文件；
创建字体特征文件；
再创建批处理文件，进而形成语言文件；
然而，执行批处理文件的过程中发生了错误；
这样处理下来效率很低。

总结

通过样本训练提高pytesseract识别准确率很麻烦，而且可能不太适合本项目，因为同学们提交上来的代码截图会有很多除代码内容以外的格式差别，很难在一个通用的水平下训练文字库提高识别度。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。