Tesseract OCR使用说明

1安装

  1. 添加源
sudo vi /etc/apt/sources.list
添加deb http://archive.ubuntu.com/ubuntu bionic universe
其中bionic和自己安装的系统有关,根据实际情况进行改变;
  1. 安装
sudo apt install tesseract-ocr
sudo apt install libtesseract-dev
  1. 安装语言
    tesseract一共有130种语言,35种脚本,语言包为tesseract-ocr-langcode和tesseract-ocr-script-scriptcode,其中langcode为3个字符,scriptcode为4个字符;
    例如tesseract-ocr-eng (English), tesseract-ocr-ara (Arabic), tesseract-ocr-chi-sim (Simplified Chinese), tesseract-ocr-script-latn (Latin Script), tesseract-ocr-script-deva (Devanagari script)
    其中ubuntu18.04的安装包链接为:https://packages.ubuntu.com/bionic/tesseract-ocr-all

2使用

命令格式

tesseract FILE OUTPUTBASE [OPTIONS]...[CONFIGFILE]...

参数说明

参数说明
FILE可以为图片也可以为文本。当为文本时,一行文本表示一张图片。
OUTPUTBASE输出
OPTINONS见下表
CONFIGFILE见下表
OPTIONS说明
-c
–dpi N指定dpi,默认N为300,如果图片不包括内容,Tesseract将会去猜测;
-l LANG
-l SCRIPT
指定语言,默认为英语,可以指定多种语言,使用+连接
–psm N设定图片中文字的格式.
–oem N指定使用tesseract还是LSTM
–tessdata-dir PATH指定tessdata的路径
–user-patterns FILE指定用于patterns文件位置?
–user-words FILE指定用户words 文件位置?

CONFIGFILE

CONFIGFILE说明
alto输出格式为OUTPUTBASE.alto
hocr输出格式为OUTPUTBASE.hocr
pdf输出格式为OUTPUTBASE.pdf
tsv输出格式为OUTPUTBASE.tsv
txt输出格式为OUTPUTBASE.txt
get.images将输入的图片写入文件
logfiledebug信息
lstm.train
makebox输出bounding-box
quiet将debug信息输出到/dev/null

其他选项

选项说明
-h帮助
–help-extra高级用法帮助
–help-psm页分割模式帮助
–help-oemengine模式帮助
–list-langs可用的语言
–print-parameters打印参数

参考链接https://github.com/tesseract-ocr/tesseract/wiki

©️2020 CSDN 皮肤主题: 大白 设计师:CSDN官方博客 返回首页