本文简单介绍
Tesseract-OCR 3.x版本如何上手使用,只适用于入门级别。
目录
1.开源协议
2.安装包获取
3.运行Tesseract-OCR命令行
3.1检测Tessseract-OCR是否安装成功
3.2查看Tesseract-OCR支持语言
3.3利用Tesseract-OCR识别
1.开源协议
Tesseract-OCR遵循Apache 2.0 license开源协议,因此可用于商业用途。不过使用前最好明确了解协议。
2.安装包获取
(1)
Tesseract 3.05(目前更新至4.0)
目前只有非官方安装包下载地址:
Tesseract at UB Mannheim
(其中包含训练工具)
(2)
Tesseract
3.02
官方安装包下载地址:
download
因为只包含英文语言包,如果需要其他语言包下载地址:
download the appropriate training data
并将语言包解压至
tessdata目录。
3.运行Tesseract-OCR命令行
Tesseract-OCR 安装后包含一个命令行程序。
(以下操作基于)Tesseract3.02版本
3.1检测Tesseract-OCR 是否安装成功
(以下操作基于)Tesseract3.05版本
step1 : 进入cmd窗口
step2 : 录入
cd 【Tesseract-OCR安装目录】,进入
Tesseract-OCR安装目录
step3 : 录入
tesseract
,如果显示以下信息则安装成功
(以下操作基于)Tesseract3.02版本
step1 : 进入cmd窗口
step2 : 录入
tesseract
回车,如果显示以下信息则安装成功
3.2查看Tesseract-OCR支持语言
tesseract --list-langs
3.2利用Tesseract-OCR识别
tesseract imagename outputbase [-l lang] [-psm pagesegmode] [configfile...]
test1:测试识别
tesseract D:\huilang\1.jpg D:\out
运行结果
test2:测试语言选择
tesseract D:\huilang\1.jpg D:\out -1eng
PS:
[-l lang]实际使用中是不能由空格的,否则提示无法打开
test3:测试输出格式
tesseract D:\huilang\1.jpg D:\out -1eng pdf
确实生成PDF文件了,虽然不是我想要的:)
参考资料:
3.《
Tesseract:安装与命令行使用
》