tesseract:从图片中识别文字信息

一、安装 tesseract

安装过程:https://blog.csdn.net/fengbohello/article/details/119272478

二、安装训练后的语言文件

下载英文数据:https://github.com/tesseract-ocr/tessdata/blob/master/eng.traineddata

下载简体中文数据:https://github.com/tesseract-ocr/tessdata/blob/master/chi_sim.traineddata

把下载的数据文件,复制到系统目录 /usr/share/tessdata/ 中,参考:https://blog.csdn.net/fengbohello/article/details/119255898

三、识别图片中的文字信息

3.0)tesseract 命令的使用方法

$ tesseract --help
Usage:
  tesseract --help | --help-extra | --version
  tesseract --list-langs
  tesseract imagename outputbase [options...] [configfile...]

OCR options:
  -l LANG[+LANG]        Specify language(s) used for OCR.
NOTE: These options must occur before any configfile.

Single options:
  --help                Show this help message.
  --help-extra          Show extra help for advanced users.
  --version             Show version information.
  --list-langs          List available languages for tesseract engine.

所以识别一个包含英文信息的图片时,可以使用下面的命令

tesseract english-word.png out-file -l eng
  • english-word.png:图片的文件名
  • out-file:识别出来的文字信息存储的位置,tesseract 会自动补全为 out-file.txt
  • -l eng:指定语言

3.1)识别英文

包含文字信息的图片如下:

 识别图片中的信息:

$ tesseract eng.png - -l eng
Traineddata Files for Version 4.00 +

We have three sets of official .traineddata files trained at Google, for tesseract versions 4.00 and
above. These are made available in three separate repositories.

注:输出文件指定为连字符 - ,意思是直接输出到 stdout

3.2)识别简体中文

包含文字信息的图片如下:

 识别图片中的信息:

$ tesseract chi_sim.png - -l chi_sim
目 录

一 、 安装 tesseract
二 、 安 装 训 练 后 的 语 言 文 件
三 、 识 别 图 片 中 的 文 字 信 息

  • 4
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值