【OCR技术系列之二】文字定位与切割

本文探讨了OCR技术中文字定位与切割的挑战,尤其是针对中文字符的问题。文章介绍了预处理的重要性,包括透视矫正和水平矫正,以及如何通过水平和垂直投影进行字符切割。虽然英文字符切割效果理想,但中文字符由于结构复杂,容易发生过度切割。文中提出了一种改进策略,通过多次分割和识别反馈来修正汉字切割错误。尽管目前没有统一的解决方案,作者计划尝试使用深度学习方法来提升分割效果。
摘要由CSDN通过智能技术生成

要做文字识别,第一步要考虑的就是怎么将每一个字符从图片中切割下来,然后才可以送入我们设计好的模型进行字符识别。现在就以下面这张图片为例,说一说最一般的字符切割的步骤是哪些。

1093303-20171212203609660-86218199.png

当然,我们实际上要识别的图片很可能没上面那张图片如此整洁,很可能是倾斜的,或者是带噪声的,又或者这张图片是用手机拍下来下来的,变得歪歪扭扭,所以需要进行图片预处理,把文本位置矫正,把噪声去除,然后才可以进行进一步的字符分割和文字识别。这些预处理的方法在我的前面几篇博客都有提到了,大家可以参考参考:
透视矫正
水平矫正

在预处理工作做好之后,我们就可以开始切割字符了。最普通的切割算法可以总结为以下几个步骤:

  1. 对图片进行水平投影,找到每一行的上界限和下界限,进行行切割
  2. 对切割出来的每一行,进行垂直投影,找到每一个字符的左右边界,进行单个字符的切割

一看只有两个步骤,好像不太难,马上编程实现看看效果。

首先是行切割。这里提到了水平投影的概念,估计有的读者没听过这个名词,我来解释一下吧。水平投影,就是对一张图片的每一行元素进行统计(就是往水平方向统计),然后我们根据这个统计结果画出统计结果图,进而确定每一行的起始点和结束点。下面提到的垂直投影也是类似的,只是它的投影方向是往下的,即统计每一列的元素个数。

根据上面的解释,我们可以写出一个用于水平投影和垂直投影的函数。

#define V_PROJECT 1  //垂直投影(vertical)
#define H_PROJECT 2  //水平投影(horizational)

typedef struct
{
    int begin;
    int end;

}char_range_t;



//获取文本的投影以用于分割字符(垂直,水平),默认图片是白底黑色
int GetTextProjection(Mat &src, vector<int>& pos, int mode)
{
    if (mode == V_PROJECT)
    {
        for (int i = 0; i < src.rows; i++)
        {
            uchar* p = src.ptr<uchar>(i);
            for 
  • 1
    点赞
  • 31
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值