论文阅读笔记：Detecting Text in Natural Image with Connectionist Text Proposal Network（CTPN）

最新推荐文章于 2022-03-22 15:50:55 发布

abc_1_cba

最新推荐文章于 2022-03-22 15:50:55 发布

阅读量375

点赞数

分类专栏：检测网络文章标签： CTPN

本文链接：https://blog.csdn.net/abc_1_cba/article/details/86440859

版权

检测网络专栏收录该内容

1 篇文章 0 订阅

订阅专栏

论文阅读笔记：Detecting Text in Natural Image with Connectionist Text Proposal Network（CTPN）

背景

任务：在自然图像中检测识别文本
难点：文本模式的大变化和高度杂乱的背景构成了精确定位文本的主要挑战。
研究状况：

文本检测：在字符检测基础的自下而上方法，步骤通常复杂，鲁棒性和可靠性较差——利用强大的深度特征直接在卷积映射中检测文本信息。文本锚点机制能在细粒度上精确预测文本位置。然后，提出了一种网内循环架构，用于按顺序连接这些细粒度的文本提议，从而编码丰富的上下文信息。
目标检测：通用目标检测用rpn从卷积映射中生成目标方案并输入f-rcn,目标都是存在明确的边界，易于定位。检测到的边界框与其实际边界框（例如，PASCAL标准[4]）之间的重叠>0.5，因为人们可以容易地从目标的主要部分识别它。而文本由字符笔划构成，没有明确边界——细粒度识别任务，将rpn架构扩展到文本行，用网络内循环机制，直接在卷积映射中检测文本。

网络框架

在这里插入图片描述图1：（a）连接文本提议网络(CTPN)的架构。（b）CTPN输出连续的固定宽度细粒度文本提议。
连接文本proposal网络(CTPN)：在 VGG16模型的conv5滑动3x3空间窗口获取卷积特征to双向LSTM(256维)网络循环编码上下文信息to512层的全连接层输出目标参数。

三大特点

1.小尺度文本proposal

CTPN本质上是一个全卷积网络，允许任意大小的输入图像。它通过在卷积特征映射中密集地滑动小窗口来检测文本行，并且输出一系列细粒度的（例如，宽度为固定的16个像素）文本提议。
文本行是一个序列，它是文本和通用目标之间的主要区别，因此可以将文本行视为一系列细粒度的文本proposal,而每个固定宽度的小尺度proposal可以通过使用多个垂直锚点来预测其y坐标和文本/非文本分数。
因此通过设计的垂直锚点和小尺度的检测策略，检测器能够通过使用单尺度图像处理各种尺度和长宽比的文本行，进一步减少了计算量，同时预测了文本行的准确位置。
在这里插入图片描述图2：左：RPN提议。右：细粒度的文本提议。

2.循环网络连接文本proposal

根据前人工作，我们可以应用递归神经网络(RNN)来编码用于文本识别的上下文信息。文本序列上下文信息可以极大地促进对裁剪的单词图像的识别任务。因此可以使用BLSTM进一步扩展RNN层，双向编码上下文信息。
在这里插入图片描述
图3：上：没有RNN的CTPN。下：有RNN连接的CTPN。

3.边缘细化

在得到小尺度proposal后，将文本/非文本分数大于0.7的proposal连接构成文本行。但这样也会出现误检，一些有少量文本的边缘会被忽略。因此需要采用边缘细化的方法，计算其边缘相对偏移，优化文本框。
在这里插入图片描述图4：CTPN检测有（红色框）和没有（黄色虚线框）边缘细化。细粒度提议边界框的颜色表示文本/非文本分数。