【OCR技术系列之二】文字定位与切割

最新推荐文章于 2023-08-31 16:44:00 发布

c123_sensing

最新推荐文章于 2023-08-31 16:44:00 发布

阅读量1.6k

点赞数 2

分类专栏： OCR

本文链接：https://blog.csdn.net/c123_sensing/article/details/82253417

版权

本文介绍了OCR技术中文字定位和切割的步骤，包括水平和垂直投影用于确定文本行和字符边界。在实践中，英文文本的切割效果优于中文，主要由于汉字的复杂性和结构。提出了一种改进的汉字切割方法，通过多次分割和识别反馈来优化结果。尽管面临挑战，作者将继续研究深度学习在汉字分割中的应用。

摘要由CSDN通过智能技术生成

要做文字识别，第一步要考虑的就是怎么将每一个字符从图片中切割下来，然后才可以送入我们设计好的模型进行字符识别。现在就以下面这张图片为例，说一说最一般的字符切割的步骤是哪些。

当然，我们实际上要识别的图片很可能没上面那张图片如此整洁，很可能是倾斜的，或者是带噪声的，又或者这张图片是用手机拍下来下来的，变得歪歪扭扭，所以需要进行图片预处理，把文本位置矫正，把噪声去除，然后才可以进行进一步的字符分割和文字识别。这些预处理的方法在我的前面几篇博客都有提到了，大家可以参考参考：
透视矫正
 水平矫正

在预处理工作做好之后，我们就可以开始切割字符了。最普通的切割算法可以总结为以下几个步骤：

对图片进行水平投影，找到每一行的上界限和下界限，进行行切割
对切割出来的每一行，进行垂直投影，找到每一个字符的左右边界，进行单个字符的切割

一看只有两个步骤，好像不太难，马上编程实现看看效果。

首先是行切割。这里提到了水平投影的概念，估计有的读者没听过这个名词，我来解释一下吧。水平投影，就是对一张图片的每一行元素进行统计（就是往水平方向统计），然后我们根据这个统计结果画出统计结果图，进而确定每一行的起始点和结束点。下面提到的垂直投影也是类似的，只是它的投影方向是往下的，即统计每一列的元素个数。

根据上面的解释，我们可以写出一个用于水平投影和垂直投影的函数。

#define V_PROJECT 1  //垂直投影（vertical）
#define H_PROJECT 2  //水平投影（horizational）

typedef struct
{
    int begin;
    int end;

}char_range_t;



//获取文本的投影以用于分割字符(垂直，水平),默认图片是白底黑色
int GetTextProjection(Mat &src, vector<int>& pos, int mode)
{
    if (mode == V_PROJECT)
    {
        for (int i = 0; i < src.rows; i++)
        {
            uc