利用python库识别图片中的文字

一、安装

需要安装两个库和一个识别引擎tesseract-ocr

1 pip install pytesseract
2 pip install pillow

windows安装识别引擎,打开这个站点找到最新版下载后安装即可:https://digi.bib.uni-mannheim.de/tesseract/

Mac安装识别引擎建议用brew进行安装:brew install tesseract

Tesseract默认是不支持中文的,如果想要识别中文或者其它语言需要下载相应的语言包,下载地址如下:https://tesseract-ocr.github.io/tessdoc/Data-Files

有两个中文语言包:Chinese-Simplified和Chinese-Traditional,分别是简体中文和繁体中文,选择需要的下载即可。下载完成后需要放到Tesseract的路径下的tessdata目录下

mac下查看brew安装包路径:brew info tesseract(方便查找tessdata目录可以用tree命令快速找到位置)

二、图片文字识别

 

看来对中文的支持还不是很好啊🤦‍♂️

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值