光学字符识别引擎 tesseract-ocr 简介

Tesseract是一个 由HP实验室开发 由Google维护的 开源的 光学字符识别 (OCR)引擎,可以在  Apache 2.0 许可 下获得。
它可以直接使用,或者(对于程序员)使用 API​​ 从图像中提取输入,包括手写的或打印的文本。

与Microsoft Office Document Imaging(MODI)相比,我们可以不断的训练的库,使图像转换文本的能力不断增强;

如果团队深度需要,还可以以它为模板,开发出符合自身需求的OCR引擎。

源码地址为:https://github.com/tesseract-ocr/tesseract

你可以训练它

大体流程为:安装jTessBoxEditor -> 获取样本文件 -> Merge样本文件 –> 生成BOX文件 -> 定义字符配置文件 -> 字符矫正 -> 执行批处理文件 -> 将生成的 traineddata 放 入tessdata 中。

具体细节参考:光学字符识别引擎 tesseract-ocr 样体训练

它是跨平台的,支持:

Linux


macOS


Windows

Tesseract-OCR4.0 版本在 Win7 上的安装过程

Tesseract-OCR4.0版本在VS2015上的编译与运行

它支持很多种的语言,包括:

Lang CodeLanguage4.0 traineddata
afrAfrikaansafr.traineddata
amhAmharicamh.traineddata
araArabicara.traineddata
asmAssameseasm.traineddata
azeAzerbaijaniaze.traineddata
aze_cyrlAzerbaijani - Cyrillicaze_cyrl.traineddata
belBelarusianbel.traineddata
benBengaliben.traineddata
bodTibetanbod.traineddata
bosBosnianbos.traineddata
bulBulgarianbul.traineddata
catCatalan; Valenciancat.traineddata
cebCebuanoceb.traineddata
cesCzechces.traineddata
chi_simChinese - Simplifiedchi_sim.traineddata
chi_traChinese - Traditionalchi_tra.traineddata
chrCherokeechr.traineddata
cymWelshcym.traineddata
danDanishdan.traineddata
deuGermandeu.traineddata
dzoDzongkhadzo.traineddata
ellGreek, Modern (1453-)ell.traineddata
engEnglisheng.traineddata
enmEnglish, Middle (1100-1500)enm.traineddata
epoEsperantoepo.traineddata
estEstonianest.traineddata
eusBasqueeus.traineddata
fasPersianfas.traineddata
finFinnishfin.traineddata
fraFrenchfra.traineddata
frkFrankishfrk.traineddata
frmFrench, Middle (ca. 1400-1600)frm.traineddata
gleIrishgle.traineddata
glgGalicianglg.traineddata
grcGreek, Ancient (-1453)grc.traineddata
gujGujaratiguj.traineddata
hatHaitian; Haitian Creolehat.traineddata
hebHebrewheb.traineddata
hinHindihin.traineddata
hrvCroatianhrv.traineddata
hunHungarianhun.traineddata
ikuInuktitutiku.traineddata
indIndonesianind.traineddata
islIcelandicisl.traineddata
itaItalianita.traineddata
ita_oldItalian - Oldita_old.traineddata
javJavanesejav.traineddata
jpnJapanesejpn.traineddata
kanKannadakan.traineddata
katGeorgiankat.traineddata
kat_oldGeorgian - Oldkat_old.traineddata
kazKazakhkaz.traineddata
khmCentral Khmerkhm.traineddata
kirKirghiz; Kyrgyzkir.traineddata
korKoreankor.traineddata
kurKurdishkur.traineddata
laoLaolao.traineddata
latLatinlat.traineddata
lavLatvianlav.traineddata
litLithuanianlit.traineddata
malMalayalammal.traineddata
marMarathimar.traineddata
mkdMacedonianmkd.traineddata
mltMaltesemlt.traineddata
msaMalaymsa.traineddata
myaBurmesemya.traineddata
nepNepalinep.traineddata
nldDutch; Flemishnld.traineddata
norNorwegiannor.traineddata
oriOriyaori.traineddata
panPanjabi; Punjabipan.traineddata
polPolishpol.traineddata
porPortuguesepor.traineddata
pusPushto; Pashtopus.traineddata
ronRomanian; Moldavian; Moldovanron.traineddata
rusRussianrus.traineddata
sanSanskritsan.traineddata
sinSinhala; Sinhalesesin.traineddata
slkSlovakslk.traineddata
slvSlovenianslv.traineddata
spaSpanish; Castilianspa.traineddata
spa_oldSpanish; Castilian - Oldspa_old.traineddata
sqiAlbaniansqi.traineddata
srpSerbiansrp.traineddata
srp_latnSerbian - Latinsrp_latn.traineddata
swaSwahiliswa.traineddata
sweSwedishswe.traineddata
syrSyriacsyr.traineddata
tamTamiltam.traineddata
telTelugutel.traineddata
tgkTajiktgk.traineddata
tglTagalogtgl.traineddata
thaThaitha.traineddata
tirTigrinyatir.traineddata
turTurkishtur.traineddata
uigUighur; Uyghuruig.traineddata
ukrUkrainianukr.traineddata
urdUrduurd.traineddata
uzbUzbekuzb.traineddata
uzb_cyrlUzbek - Cyrillicuzb_cyrl.traineddata
vieVietnamesevie.traineddata
yidYiddishyid.traineddata
参考: https://github.com/tesseract-ocr/tesseract/wiki/Data-Files


  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值