python简体识别_用Python&Tesseract识别图片文字

Python&Tesseract

识别图片文字

作者:刘志军,

6

+Python

使用经验,

高级开发工程

师,目前在互联网医疗行业从事

Web

系统构架工作个人公

众号:

Python

之禅(微信

ID

vttalk

)题图:

https://unsplash.com/@alvaroserrano

在一个项目中遇到这

样的需求,要把一堆图片中的文字识别出来并分门别类地保

存数据库,上万字纯手工敲是下下策,网上有很多图片转文

字的在线服务,单张图转没什么问题,可惜大批量的图缺乏

定制化,爱捣鼓的程序员还是自己动手靠谱,开源项目

Tesseract

专用于

OCR

识别,它的应用场景非常多,比如

验证码识别、车牌识别、普通的文字图片识别都不是问题。

安装

Linux

Mac

平台的安装非常简单,直接命令行安装

即可,默认只有英文语言包,汉语包需要额外指定

sudo

apt-get install tesseract-ocr

# ubuntubrew install

tesseract

# macOSWindows

平台需要二进制安装包,官

方下载地址

https://github.com/tesseract-ocr/tesseract/wiki/4.0-with-LS

TM#400-alpha-for-windows

安装时需要选择中文语言包才

是识别汉字配置安装完成后,需要设置两个环境变量

$PATH

$TESSDATA_PREFIX

如果不指定后面会报错,

tessertact

的安装路径加入

PATH

变量中,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值