tesseractOCR 特征提取篇----MF特征提取

最新推荐文章于 2024-05-23 11:27:29 发布

大熊吃土豆

最新推荐文章于 2024-05-23 11:27:29 发布

阅读量8.2k

点赞数 6

分类专栏： tesseract ocr识别文章标签： ocr特征 tesseract MF特征特征提取 ocr训练

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u013293750/article/details/53508779

版权

一直在做ocr识别的相关工作。由于兴趣及工作需要，研究优化了下tesseract识别引擎的各个模块。发现关于tesseract引擎国内的资料，对于代码及原理的介绍相对较少，大部分都是应用类的文章，我将看过的代码结合自己的理解介绍识别的各个模块，与大家一起交流学习。

先看下训练时我这边提取到的数字1的MF特征(该特征我是理解为笔画直线中点的坐标，该直线长度及角度等，字提取轮廓后其实就是一条条直线了）

mf 5

0.022858083 0.32230198 0.37753356 0 0 0

-0.16590869 0.11053124 0.42354149 0.25 0 0

-0.25303182 -0.20042329 0.26402926 0.13528861 0 0

-0.064265043 -0.29960707 0.55177981 0.5 0 0

0.21162486 0.011347458 0.62190902 0.75 0 0

X y len dir . . .

下面来看MF特征是如何得到的：

首先定义一些方向的sign 值

Left 0 down 32 right 64 up 96

leftdown 16 downright 48 rightup 80 upleft 112 类似对应45度刚好8个方向

1：二值化提取出轮廓

轮廓点集 <x,y,dir>由46个点组成

2：去掉同一条直线上的点，以及将直线变平滑（如90度角处理成45度&

最低0.47元/天解锁文章

大熊吃土豆

关注

6
点赞
踩
13

收藏

觉得还不错? 一键收藏
2
评论
tesseractOCR 特征提取篇----MF特征提取

一直在做ocr识别的相关工作。由于兴趣及工作需要，研究优化了下tesseract识别引擎的各个模块。发现关于tesseract引擎国内的资料，对于代码及原理的介绍相对较少，大部分都是应用类的文章，我将看过的代码结合自己的理解介绍识别的各个模块，与大家一起交流学习。先看下训练时我这边提取到的数字1的MF特征mf 5 0.022858083 0.32230198 0.3775
复制链接

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。