tesseract-ocr_??tesseract OCR引擎入门(1)

安装

sudo add-apt-repository ppa:alex-p/tesseract-ocr
sudo apt-get update 
sudo apt-get install tesseract-ocr 

测试安装是否成功,同时检查版本:

tesseract --version 

字库下载

tesseract支持60多种语言的识别不同,使用之前需要先下载对应语言的字库,下载地址:

tesseract-ocr/tessdata​github.com
v2-ca77a651b8557c3b612ebf0749e5ad38_ipico.jpg

下载完成之后把.traineddata字库文件放到tessdata目录下,默认路径是/usr/share/tesseract-ocr /4.0/tessdata

中文OCR识别测试

在终端中使用tesseract格式:

tesseract gc.jpg result -l chi_sim

执行之后生成结果记录在result.txt里,-l chi_sim指令表示使用中文语言识别

更多tesseract使用指令可以查看help

tesseract --help

查看已安装字库

tesseract --list-langs

--psm命令

psm命令指明文本的模式,默认为3:

--oem命令

定义OCR引擎的模式:

安装pytesseract库和tesseract-ocr引擎的步骤如下: 1. 首先,确保你已经安装了Python和pip。 2. 打开命令行终端,并执行以下命令来安装pytesseract库: ```shell pip install pytesseract ``` 3. 安装完成后,你还需要安装tesseract- Windows: - 访问https://github.com/UB-Mannheim/tesseract/wiki下载最新的tesseract-ocr安装程序。 - 运行安装程序,并按照提示完成安装。 - 在安装过程中,记住tesseract-OCR。 - macOS: - 打开终端,并执行以下命令来安装tesseract-ocr: ```shell brew install tesseract ``` - Linux(Ubuntu): - 打开终端,并执行以下命令来安装tesseract-ocr: ```shell sudo apt-get install tesseract-ocr ``` 4. 安装完成后,你还需要配置pytesseract库以使用正确的tesseract-ocr引擎路径。根据你的操作系统,可以按照以下步骤进行配置: - Windows: - 打开pytesseract库的安装目录,例如:C:\Users\huxiu\AppData\Local\Programs\Python\Python35\Lib\site-packages\pytesseract。 - 打开pytesseract.py文件,并找到以下行: ```python tesseract_cmd = 'tesseract' ``` - 将该行修改为你的tesseract-ocr引擎的路径,例如: ```python tesseract_cmd = 'C:/Program Files (x86)/Tesseract-OCR/tesseract.exe' ``` - macOS和Linux: - 不需要进行额外的配置,pytesseract库会自动找到正确的tesseract-ocr引擎路径。 5. 现在,你已经成功安装了pytesseract库和tesseract-ocr引擎。你可以在Python代码中导入pytesseract库,并使用它来进行OCR(光学字符识别)操作。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值