Tesseract OCR使用说明

1安装

  1. 添加源
sudo vi /etc/apt/sources.list
添加deb http://archive.ubuntu.com/ubuntu bionic universe
其中bionic和自己安装的系统有关,根据实际情况进行改变;
  1. 安装
sudo apt install tesseract-ocr
sudo apt install libtesseract-dev
  1. 安装语言
    tesseract一共有130种语言,35种脚本,语言包为tesseract-ocr-langcode和tesseract-ocr-script-scriptcode,其中langcode为3个字符,scriptcode为4个字符;
    例如tesseract-ocr-eng (English), tesseract-ocr-ara (Arabic), tesseract-ocr-chi-sim (Simplified Chinese), tesseract-ocr-script-latn (Latin Script), tesseract-ocr-script-deva (Devanagari script)
    其中ubuntu18.04的安装包链接为:https://packages.ubuntu.com/bionic/tesseract-ocr-all

2使用

命令格式

tesseract FILE OUTPUTBASE [OPTIONS]...[CONFIGFILE]...

参数说明

参数说明
FILE可以为图片也可以为文本。当为文本时,一行文本表示一张图片。
OUTPUTBASE输出
OPTINONS见下表
CONFIGFILE见下表
OPTIONS说明
-c
–dpi N指定dpi,默认N为300,如果图片不包括内容,Tesseract将会去猜测;
-l LANG
-l SCRIPT
指定语言,默认为英语,可以指定多种语言,使用+连接
–psm N设定图片中文字的格式.
–oem N指定使用tesseract还是LSTM
–tessdata-dir PATH指定tessdata的路径
–user-patterns FILE指定用于patterns文件位置?
–user-words FILE指定用户words 文件位置?

CONFIGFILE

CONFIGFILE说明
alto输出格式为OUTPUTBASE.alto
hocr输出格式为OUTPUTBASE.hocr
pdf输出格式为OUTPUTBASE.pdf
tsv输出格式为OUTPUTBASE.tsv
txt输出格式为OUTPUTBASE.txt
get.images将输入的图片写入文件
logfiledebug信息
lstm.train
makebox输出bounding-box
quiet将debug信息输出到/dev/null

其他选项

选项说明
-h帮助
–help-extra高级用法帮助
–help-psm页分割模式帮助
–help-oemengine模式帮助
–list-langs可用的语言
–print-parameters打印参数

参考链接https://github.com/tesseract-ocr/tesseract/wiki

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值