图片根据指定文本坐标自动切割_OCR技术讲解二、文字定位和文本切割

最新推荐文章于 2023-10-17 21:13:13 发布

weixin_39631344

最新推荐文章于 2023-10-17 21:13:13 发布

阅读量1k

点赞数

文章标签：图片根据指定文本坐标自动切割

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39631344/article/details/111393347

版权

本文介绍OCR技术中的文字定位和文本切割过程。首先通过邻近搜索整合连通区域，避免文字碎片，然后讨论均匀切割和统计切割方法，以适应中英文混排的情况。最后提出结合两种切割策略的优化方案，确保准确切割。

摘要由CSDN通过智能技术生成

OCR 技术讲解二

文字定位

经过前面的特征提取，我们已经较好地提取了图像的文本特征，下面进行文字定位。主要过程分两步：

1、邻近搜索，目的是圈出单行文字；

2、文本切割，目的是将单行文本切割为单字。

邻近搜索

我们可以对提取的特征图进行连通区域搜索，得到的每个连通区域视为一个汉字。这对于大多数汉字来说是适用，但是对于一些比较简单的汉字却不适用，比如“小”、“旦”、“八”、“元” 这些字，由于不具有连通性，所以就被分拆开了，

如图13。因此，我们需要通过邻近搜索算法，来整合可能成字的区域，得到单行的文本区域。

13

图13 直接搜索连通区域，会把诸如“元”之类的字分拆开。

邻近搜索的目的是进行膨胀，以把可能成字的区域“粘合”起来.。如果不进行搜索就膨胀，那么膨胀是各个方向同时进行的，这样有可能把上下行都粘合起来了。因此，我们只允许区域向单一的一个方向膨胀。我们正是要通过搜索邻近区域来确定膨胀方向(上、下、左、右)：

邻近搜索* 从一个连通区域出发，可以找到该连通区域的水平外切矩形，将连通区域扩展到整个矩形。当该区域与最邻近区域的距离小于一定范围时，考虑这个矩形的膨胀，膨胀的方向是最邻近区域的所在方向。

既然涉及到了邻近，那么就需要有距离的概念。下面给出一个比较合理的距离的定义。

距离

14

图14 两个示例区域

如上图，通过左上角坐标(x,y)和右下角坐标(z,w)就可以确定一个矩形区域，这里的坐标是以左上角为原点来算的。这个区域的中心是( (x+z) / 2, (y+w) / 2 )。对于图中的两个区域S和S′，可以计算它们的中心向量差

如果直接使用

作为距离是不合理的，因为这里的邻近应该是按边界来算，而不是中心点。因此，需要减去区域的长度：

距离定义为

至于方向，由

的幅角进行判断即可。

然而，按照前面的“邻近搜索*”方法，容易把上下两行文字粘合起来，因此，基于我们的横向排版假设，更好的方法是只允许横向膨胀：

邻近搜索从一个连通区域出发，可以找到该连通区域的水平外切矩形，将连通区域扩展到整个矩形。当该区域与最邻近区域的距离小于一定范围时，考虑这个矩形的膨胀，膨胀的方向是最邻近区域的所在方向，当且仅当所在方向是水平的，才执行膨胀操作。

结果

有了距离之后，我们就可以计算每两个连通区域之间的距离，然后找出最邻近的区域。我们将每个区域向它最邻近的区域所在的方向扩大4分之一，这样邻近的区域就有可能融合为一个新的区域，从而把碎片整合。

实验表明，邻近搜索的思路能够有效地整合文字碎片，结果如图15。

15

图15 通过邻近搜索后，圈出的文字区域

文本切割

经过前面文字定位得到单行的文本区域之后，我们就可以想办法将单行的文本切割为单个的字符了。因为第三步的模型师针对单个的字符建立的，因此这一步也是必须的。

均匀切割

基于方块汉字的假设，事实上最简单的切割方法是均匀切割，也就是说不加任何判断，直接按照高度来将单行文本切割为一个个的正方形图片。这种思路可以应对大部分的单行文本，如下图。

当然，均匀切割的弊端也是很明显的。大多数汉字都是方块汉字，但多数英语和数字都不是，因此如果出现中英文混排的时候，均匀切割就失效了，如上图。

统计切割

从图15中可以看出，经过前面的操作，字与字都被很好地分离开了。因此，另外一种比较简单的思路是对单行的文字图片进行垂直方向的求和，和为0的所在的列就是被切割的的列。

用这种统计的思路可以很好地解决中英文混排的单行文字图片分割的问题，但是它也存在一定的弊端。最明显的就是诸如“小”、“的”等字就被切割开为两部分了。

前后比较

一个更好的思路是结合前面两部分结果，通过比较前后两部分区域是否组成方形来确定是否切割。具体步骤是：

1。通过统计求和的思路，得出候选的切割线；

2。如果该候选切割线到左右两条候选切割线的距离之和超过宽长度的1。2倍，那么该候选切割线确定为切割线；

3。如果得到的区域是一个明显的长条矩形，并且没办法按照上面两个步骤切割，那个就均匀切割。

这三个步骤比较简单，基于两个假设：

1、数字、英文字符的底与高之比大于60%；

2、汉字的底与高之比低于1.2。经过测试，该算法可以很好地用于前面步骤所提取的图片文本特征的分割。

尚学堂人工智能学院：OCR技术讲解：一、提取特征zhuanlan.zhihu.com

ps：想学习人工智能的小伙伴，这里有相关的资料；

获取资料点击链接扫码加群备注来源如：知乎_xxx

人工智能课程第一节机器学习是什么？

尚学堂人工智能课程第二节线性回归梯度下降

尚学堂人工智能学院：0基础如何学习人工智能？小白学习人工智能详细指南、学习线路规划

weixin_39631344

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。