论文阅读笔记:Detecting Text in Natural Image with Connectionist Text Proposal Network(CTPN)

论文阅读笔记:Detecting Text in Natural Image with Connectionist Text Proposal Network(CTPN)

背景

任务:在自然图像中检测识别文本
难点:文本模式的大变化和高度杂乱的背景构成了精确定位文本的主要挑战。
研究状况

  1. 文本检测:在字符检测基础的自下而上方法,步骤通常复杂,鲁棒性和可靠性较差——利用强大的深度特征直接在卷积映射中检测文本信息。文本锚点机制能在细粒度上精确预测文本位置。然后,提出了一种网内循环架构,用于按顺序连接这些细粒度的文本提议,从而编码丰富的上下文信息。
  2. 目标检测:通用目标检测用rpn从卷积映射中生成目标方案并输入f-rcn,目标都是存在明确的边界,易于定位。检测到的边界框与其实际边界框(例如,PASCAL标准[4])之间的重叠>0.5,因为人们可以容易地从目标的主要部分识别它。而文本由字符笔划构成,没有明确边界——细粒度识别任务,将rpn架构扩展到文本行,用 网络内循环机制,直接在卷积映射中检测文本。

网络框架

在这里插入图片描述图1:(a)连接文本提议网络(CTPN)的架构。(b)CTPN输出连续的固定宽度细粒度文本提议。
连接文本proposal网络(CTPN):在 VGG16模型的conv5滑动3x3空间窗口获取卷积特征to双向LSTM(256维)网络循环编码上下文信息to512层的全连接层输出目标参数。

三大特点

1.小尺度文本proposal

CTPN本质上是一个全卷积网络,允许任意大小的输入图像。它通过在卷积特征映射中密集地滑动小窗口来检测文本行,并且输出一系列细粒度的(例如,宽度为固定的16个像素)文本提议。
文本行是一个序列,它是文本和通用目标之间的主要区别,因此可以将文本行视为一系列细粒度的文本proposal,而每个固定宽度的小尺度proposal可以通过使用多个垂直锚点来预测其y坐标和文本/非文本分数。
因此通过设计的垂直锚点小尺度的检测策略,检测器能够通过使用单尺度图像处理各种尺度和长宽比的文本行,进一步减少了计算量,同时预测了文本行的准确位置。
在这里插入图片描述图2:左:RPN提议。右:细粒度的文本提议。

2.循环网络连接文本proposal

根据前人工作,我们可以应用递归神经网络(RNN)来编码用于文本识别的上下文信息。文本序列上下文信息可以极大地促进对裁剪的单词图像的识别任务。因此可以使用BLSTM进一步扩展RNN层,双向编码上下文信息。
在这里插入图片描述
图3:上:没有RNN的CTPN。下:有RNN连接的CTPN。

3.边缘细化

在得到小尺度proposal后,将文本/非文本分数大于0.7的proposal连接构成文本行。但这样也会出现误检,一些有少量文本的边缘会被忽略。因此需要采用边缘细化的方法,计算其边缘相对偏移,优化文本框。
在这里插入图片描述图4:CTPN检测有(红色框)和没有(黄色虚线框)边缘细化。细粒度提议边界框的颜色表示文本/非文本分数。

输出

用三个输出分别计算文本/非文本分数,垂直坐标和边缘细化偏移,并引入相应的损失函数,建立整体的数学模型。
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值