场景文本检测—CTPN算法介绍

SIGAI_csdn

于 2018-06-25 13:14:37 发布

阅读量5.6k

点赞数 2

文章标签：场景文本检测机器学习深度学习人工智能 SIGAI

本文链接：https://blog.csdn.net/SIGAI_CSDN/article/details/80800131

版权

本文介绍了CTPN（Connectionist Text Proposal Network）算法在场景文本检测中的应用，该算法结合了CNN和RNN的优势，通过“微分”思想解决复杂环境下文字检测问题。CTPN首先通过VGG16提取特征，然后使用双向LSTM利用上下文信息，最后进行side-refinement优化，提高文本检测的准确性。

摘要由CSDN通过智能技术生成

其它机器学习、深度学习算法的全面系统讲解可以阅读《机器学习-原理、算法与应用》，清华大学出版社，雷明著，由SIGAI公众号作者倾力打造。

SIGAI特约作者：沪东三哥原创声明:本文为SIGAI 原创文章，仅供个人学习使用，未经允许，不得转载，不能用于商业目的。

何为OCR ？

OCR的全称为“Optical Character Recognition” 中文翻译为光学字符识别。它是利用光学技术和计算机技术把印在或写在纸上的文字读取出来，并转换成一种计算机和人都能够理解的形式的过程。

先来看一个简单的OCR的流程：第一步，通过图像信息采集（一般就是相机），得到包含了待识别字符的图像，分析结构。

第二步，运用阈值操作等一些图像处理的方法对待测对象进行去噪和矫正。

第三步，因为文本信息的特殊性质，需要进行行列分割，对单个字符，或者是连续几个字符进行检测。

第四步，将分割后的字符图像导入识别模型中进行处理，进而得到原图中的字符信息。

场景文本识别

对于印刷字体的OCR技术如今已经相当成熟了。腾讯TIM的手机版就自带有图像文字提取的功能，微软的Office Lens的各种扫描功能呢等等，虽然不能说是百分之百正确，但是95%以上的印刷字体识别基本都是可以做到了。所以现在技术上关注的更多的是“场景文本识别”，也就是复杂环境下的字符信息的识别，如下面几张图所示。

对于复杂环境中的字符的识别，主要包括文字检测和文字识别两个步骤，这里介绍的CTPN(Detecting Text inNatural Image with Connectionist Text Proposal Network)方法就是在场景中提取文字的一个效果较好的算法，能将自然环境中的文本信息位置加以检测。

涉及到了图像中位置信息的选择，很容易联想到之前用于目标检测的R-CNN的模型。毕竟CNN（Convolutional Neural Network）在这两年的图像处理上一枝独秀已经“深入人心”。那么把“字符位置”标记成一类，然后直接放入CNN模型处理岂不美哉？不过，现实总不会这么美好，文字的多种情况、字体，以及大面积的文字信息的位置，都对我们直接用R-CNN的方法产生了干扰，让结果产生严重的偏差。应对于此，一类结合CNN优势，专门应对环境文本信息的模型也就因运而生了，CTPN正是其中的佼佼者。

CTPN算法概述

言归正传,那么算法上文本位置的准确界定是怎么做到的呢？

首先，明确待检测的目标的特点，无论是图3还是图4的样例，文字信息的特点在于它是一个序列，是由“字符、字符的一部分、多字符”组成的一个sequence。所以这个目标显然不像我们一般的目标检测中的对象那样是独立和封闭的，所以不妨使用前后关联的序列的方法，比如说RNN (Recurrent Neural Networks),利用前后文的信息来进行文本位置的测定。

另外很重要的一点是，作者认为预测文本水平方向的位置比预测竖直方向上的位置要困难得多。所以检测的过程中不妨引入一个类似数学上“微分”的思想，如下图5所示，先检测一个个小的、固定宽度的文本段。在后处理部分再将这些小文本段连接起来，得到文本行。

有了CNN和RNN结合，以及数学上”微分”思想处理文字段这样的奇思妙想之后，接下来就看作者是如何将其实现的了。具体流程图如下，然后分别进行介绍。

过程的图像如下图6：

具体的步骤为：

1. 首先，用VGG16的前5个Conv stage得到feature map，大小为W*H*C

2. 用3*3的滑动窗口在前一步得到的feature map上提取特征，利用这些特征来对多个anchor进行预测,这里anchor定义与之前faster-rcnn中的定义相同，也就是帮我们去界定出目标待选区域。

3. 将上一步得到的特征输入到一个双向的LSTM中，输出W*256的结果，再将这个结果输入到一个512维的全连接层（FC）.

4. 最后通过分类或回归得到的输出主要分为三部分，根据上图从上到下依次为2k vertical coordinates:表示选择框的高度和中心的y轴的坐标；2k scores:表示的是k个anchor的类别信息，说明其是否为字符；k side-refinement表示的是选择框的水平偏移量。本文实验中anchor的水平宽度都是16个像素不变，也就是说我们微分的最小选择框的单位是 “16像素”。

5. 用

最低0.47元/天解锁文章

SIGAI_csdn

关注

2
点赞
踩
15

收藏

觉得还不错? 一键收藏
1
评论
场景文本检测—CTPN算法介绍

其它机器学习、深度学习算法的全面系统讲解可以阅读《机器学习-原理、算法与应用》，清华大学出版社，雷明著，由SIGAI公众号作者倾力打造。书的购买链接书的勘误，优化，源代码资源SIGAI特约作者：沪东三哥原创声明:本文为SIGAI 原创文章，仅供个人学习使用，未经允许，不得转载，不能用于商业目的。何为OCR ？OCR的全称为“Optical Charac...
复制链接

扫一扫