用
Python&Tesseract
识别图片文字
作者:刘志军,
6
年
+Python
使用经验,
高级开发工程
师,目前在互联网医疗行业从事
Web
系统构架工作个人公
众号:
Python
之禅(微信
ID
:
vttalk
)题图:
https://unsplash.com/@alvaroserrano
在一个项目中遇到这
样的需求,要把一堆图片中的文字识别出来并分门别类地保
存数据库,上万字纯手工敲是下下策,网上有很多图片转文
字的在线服务,单张图转没什么问题,可惜大批量的图缺乏
定制化,爱捣鼓的程序员还是自己动手靠谱,开源项目
Tesseract
专用于
OCR
识别,它的应用场景非常多,比如
验证码识别、车牌识别、普通的文字图片识别都不是问题。
安装
Linux
和
Mac
平台的安装非常简单,直接命令行安装
即可,默认只有英文语言包,汉语包需要额外指定
sudo
apt-get install tesseract-ocr
# ubuntubrew install
tesseract
# macOSWindows
平台需要二进制安装包,官
方下载地址
https://github.com/tesseract-ocr/tesseract/wiki/4.0-with-LS
TM#400-alpha-for-windows
,
安装时需要选择中文语言包才
是识别汉字配置安装完成后,需要设置两个环境变量
$PATH
和
$TESSDATA_PREFIX
,
如果不指定后面会报错,
把
tessertact
的安装路径加入
PATH
变量中,