Tesseract限制匹配的字符集

最新推荐文章于 2024-01-17 15:13:46 发布

followingturing

最新推荐文章于 2024-01-17 15:13:46 发布

阅读量6k

点赞数

分类专栏： python 文章标签： file search output

python 专栏收录该内容

42 篇文章 0 订阅

订阅专栏

在OCR过程中，我发现，如果能够限制匹配的字符集，那么肯定能够大大提高识别效率，但是能不能支持呢？我查了很多资料，都没有明确答案，最后，在stackoverflow终于找的了答案。

翻译过来。

Q：

Is it possible to limit the set of characters that tesseract is looking for (e.g. search only for letters a-z)? That would improve my results greatly.

A：

Create a config file (e.g "letters") in tessdata/configs directory - usually

在特定文件夹中，创建一个配置文件，文件夹通常在

/usr/share/tesseract/tessdata/configs

or

/usr/share/tesseract-ocr/tessdata/configs

And add this line to the config file:

填入一行配置，即你要加入的字符集

tessedit_char_whitelist abcdefghijklmnopqrstuvwxyz

...or maybe [a-z] works.. dunno :-)

Then call tesseract similar to this:

然后在调用命令时候，要用以下形式：

tesseract input.tif output nobatch letters

That will limit tesseract to recognize only the wanted characters

这就把匹配字符集限制在你自定义的范围内了。

第一次做翻译，翻译完后才发现这难度，完全没必要，哈哈。不过，作为我的第一次翻译，意义还是有的。

followingturing

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
2
评论
Tesseract限制匹配的字符集

在OCR过程中，我发现，如果能够限制匹配的字符集，那么肯定能够大大提高识别效率，但是能不能支持呢？我查了很多资料，都没有明确答案，最后，在stackoverflow终于找的了答案。翻译过来。Q：Is it possible to limit the set of characters that tesseract is looking for (e.g. search on
复制链接

扫一扫

专栏目录

followingturing CSDN认证博客专家 CSDN认证企业博客

码龄15年

66: 原创

12万+: 周排名

64万+: 总排名

109万+: 访问

: 等级

1万+: 积分

563: 粉丝

97: 获赞

87: 评论

278: 收藏

私信

关注

热门文章

分类专栏

最新评论

汇编语言中使用有符号数还是无符号数问题
做而论道_CS: 计算机诞生的初期，需要由【人】输入机器码。那么，机器所需的指令，需要人工查表，查出指令代码。同样，负数，就需要人工变换成补码，再输入到存储器。怎么变换？　方法，有许多种了。现在流行的说法是：符号位原码取反加一。实际上，并不一定就非得用这个。后来，计算机有了键盘，以及操作系统。输入数据，就可以直接输入了。比如，需要输入：－125。你就用键盘键入：－、1、2、5、<回车>。键盘把这五个 ASCII 码，送到主机，操作系统再把它们变换成－125 的补码：1000 0011。然后，再存入存储器。五个 ASCII 码，怎么变成补码？方法，显然不会是 “取反加一” 这么简单。
汇编语言中使用有符号数还是无符号数问题
做而论道_CS: 计算机中的数据，都是一样的。处理方法，有两种：　保留进位，就是把数据当做 “无符号数”。　舍弃进位，就是把数据当做 “带符号数”。数据，都是一样的。　不可能分辨出谁是 “无符号数”、“带符号数”。计算机原理中说：计算机中的数，有两种。。。这是彻头彻尾的谎话！－－－－－－－－－－－－－－－－－－－－－计算机中的数，只有一种，就是：二进制数。学了编程之后，才会懂得，有：两种程序。 C 语言是高级语言，不需要编程人，来区分使用不同的程序。那么，在 C 中，就可以先定义两种数据，之后，编译软件，就会根据你的定义，选用不同的处理程序。在 C 中，弄混了顺序之后，编程人，只知道有两种数据，却不知道有两种处理程序。《计算机原理》和《汇编语言》的作者，都是先讨论 “两种数据”，而并不讨论 “两种处理方法”。他们都是被 C 弄混了基本概念。可悲！
SIM卡安全
m0_68417630: 你好一些问题想咨询一下可否留联系方式
（有点意思）恶搞之手机垃圾信息发送器
六哥子: 不能用
SIM卡安全
笨小雷: 谢谢分享。这就是属于 SIM 卡的物理攻击了。十年了，据说现在已经黑客的技术已经可以远程劫持手机短信了，不知真假

最新文章

目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。