python+pytesseract 中文识别

最新推荐文章于 2024-08-07 07:15:00 发布

老年星际玩家

最新推荐文章于 2024-08-07 07:15:00 发布

阅读量2.9w

点赞数 3

分类专栏： python 文章标签： pytesseract python

本文链接：https://blog.csdn.net/weixin_41635857/article/details/80692909

版权

本文介绍了使用Python的pytesseract库进行中文识别的过程，虽然识别率不高，但分享了作者在解决'gbk'编码错误及提高识别率上的尝试。作者提供了中文包的下载链接，并推荐了参考的代码修改方案以及遇到的问题。对于提升识别率，建议尝试使用百度OCR SDK。

摘要由CSDN通过智能技术生成

继写了第一篇包含验证码识别的自动化登录脚本后在一次与朋友聊天中谈到中文识别。想起Tesseract-OCR是有这个包的，然后我就搞了搞

#coding = utf -8
from PIL import Image
import pytesseract

im = Image.open("2.png")
text = pytesseract.image_to_string((im), lang='chi_sim')
print (text）

其实识别率不是太高，本来我想用pytesser3的，结果搞了好久，识别到的东西一直保存不了，一直报

'gbk' codec can't decode byte 0xbf in position 2: illegal multibyte sequence

有大佬解决了告我下~

最低0.47元/天解锁文章

老年星际玩家

关注

3
点赞
踩
20

收藏

觉得还不错? 一键收藏
4
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录