安装
sudo add-apt-repository ppa:alex-p/tesseract-ocr
sudo apt-get update
sudo apt-get install tesseract-ocr
测试安装是否成功,同时检查版本:
tesseract --version
字库下载
tesseract支持60多种语言的识别不同,使用之前需要先下载对应语言的字库,下载地址:
tesseract-ocr/tessdatagithub.com下载完成之后把.traineddata字库文件放到tessdata目录下,默认路径是/usr/share/tesseract-ocr /4.0/tessdata
中文OCR识别测试
在终端中使用tesseract格式:
tesseract gc.jpg result -l chi_sim
执行之后生成结果记录在result.txt里,-l chi_sim指令表示使用中文语言识别
更多tesseract使用指令可以查看help
tesseract --help
查看已安装字库
tesseract --list-langs
--psm命令
psm命令指明文本的模式,默认为3:
--oem命令
定义OCR引擎的模式: