ubuntu 安装 pytesseract 模块进行图片内容识别

主要是实现图片内容的离线识别,python 提供了一个库完成此功能。

一. 安装  tesseract-ocr 包

sudo apt-get install tesseract-ocr

二. 安装 PIL PIL(python imaging library)是python中的图像处理库

 sudo apt-get install python-imaging

三.  安装 pytesseract

pip install pytesseract

四.代码测试

复制代码

# -*- coding: UTF-8 -*-
from PIL import Image
import pytesseract
# 识别中文
text = pytesseract.image_to_string(Image.open('chinese.png'),lang='chi_sim')
print text

# 识别英文
text = pytesseract.image_to_string(Image.open('english.png'))
print text

复制代码

五.要想识别的中文需要添加中文字库

需要在ubuntu  系统中 找到 tessdata  文件夹把中文字库放进去

也可以在线安装中文字库

sudo apt-get install tesseract-ocr-chi-sim

六.此模块还支持 命令行识别

复制代码

使用命令:
识别英文:
tesseract e.png 1   #1 是存储获取内容的文件,会在本地生成一个1文件
识别中文
tesseract --help  # 查看帮助
tesseract --list -langs  # 查看是否安装了中文库chi_sim
tesseract -l chi_sim c.png 1 # 1也是结果的文件把识别的结果存到此文件中

复制代码

还可以离线安装源码编译安装 参考的教程

https://www.cnblogs.com/yanhai307/p/10791490.html

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值