Tesseract OCR 下载及安装教程 (中英文语言包)

Tesseract OCR 下载安装 (中英文语言包)

(需要csdn币的下载真没必要,所有的包都在这里免费下)
https://github.com/tesseract-ocr/tessdata

在这里插入图片描述
这个是中文简体

eng.traineddata 这个是英文
github下载比较慢,可以选择单个下载

在这里插入图片描述

右键迅雷下载就可以了。

安装中英文语言包
下载chi_sim.traineddata、eng.traineddata、eng.traineddata.part三个文件,并把它们放到tessdata文件夹中。

cp chi_sim.traineddata /usr/local/share/tessdata

cp eng.traineddata /usr/local/share/tessdata

cp eng.traineddata.part /usr/local/share/tessdata

安装参考:
https://blog.csdn.net/showgea/article/details/82656515

  • 25
    点赞
  • 53
    收藏
    觉得还不错? 一键收藏
  • 5
    评论
TesseractOCR是一个开源的OCR(光学字符识别)引擎,它可以将印刷体的文字转换为可编辑和可搜索的文本。由于Tesseract最初是用于识别英文和拉丁语言的,因此它最开始的版本对中文的支持非常有限。但是,随着时间的推移,许多开发者和贡献者为Tesseract开发了一些中文训练数据和模型,从而增加了其对中文的识别能力。 TesseractOCR中文包是指用于Tesseract引擎的中文识别语言数据包。这个中文包包括了训练好的模型和数据文件,使得Tesseract能够更好地识别中文文本。使用TesseractOCR中文包,我们可以将中文的印刷体文字转换为计算机可理解的文本格式,例如txt或可搜索的PDF文档。 TesseractOCR中文包的使用相对简单。首先,我们需要安装Tesseract引擎,并将中文包添加到其语言数据目录中。然后,我们可以使用Tesseract库或命令行工具来识别中文文本。在识别前,我们可以对图像进行预处理,例如去除噪声、调整图像的亮度和对比度等,以提高识别的准确性。最后,Tesseract会输出识别结果,我们可以将其保存为文本文件或进行进一步的处理和分析。 需要注意的是,TesseractOCR中文包的识别能力可能不如专门针对中文的商业OCR引擎。因此,在一些特定的项目或应用中,我们可能需要考虑使用其他更专业的中文OCR解决方案。 总的来说,TesseractOCR中文包为Tesseract引擎增加了对中文的识别支持,使得我们可以更方便地对中文印刷体文字进行OCR处理。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值