anaconda中通过pytesseract识别中文字符

使用pytesseract识别中文字符

环境的安装可以参考:https://editor.csdn.net/md/?articleId=109255325

首先,需要下载相应的数据集,可以自行搜索官网,下载chi_sim.traineddata
链接:

百度网盘:
链接:https://pan.baidu.com/s/1Z79jcrMwumlDHEXRyk82eg
提取码:pxwh

将这个数据集放入安装的Tesseract-OCR\tessdata中

在这里插入图片描述
我使用的是anaconda安装。
然后就是几行代码实现中文字符的识别:

# 导入模块和包
from PIL import Image
import pytesseract

# 打开需要识别的图片
img = Image.open('1.jpg')
# 识别图片,指定lang = ‘chi_sim’即可识别中文
content = pytesseract.image_to_string(img, lang = 'chi_sim')
# 输出打印一下
print(content)

这里附上这个所有识别字体的数据包

链接:https://pan.baidu.com/s/1FdAwdIVUGhBk0jA_V4i62g
提取码:lfel

  • 3
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值