CTPN是现在的主流自然场景文本区域检测模型中流传最广泛的模型之一,它可以同时检测水平或者稍微倾斜的自然场景下的文本。CTPN的全称为Connectionist Text Proposal Network,该模型在论文Detecting Text in Natural Image with Connectionist Text Proposal Network(ECCV2016)中提出,论文传送门:https://arxiv.org/abs/1609.03605。
文本区域检测与通常的图像目标检测不同的是,文本行为一个序列,而不是一个独立检测的目标,序列在检测过程中有好有坏,好处是可以利用序列的上下文信息对整个文本行做出判断,可以利用循环神经网络来学习文本的上下文信息,CTPN模型中采用BLSTM(Bi-directional LSTM,双向LSTM)提取文本字符在图像中的上下文信息,以此来提高文本块的识别精度,坏处是整体文本行的检测相比单个目标要难。
CTPN中的P与RPN中的P为同一个词,proposal可以理解为图像中的一个个小区域,在CTPN中proposal的宽度是固定的,其实作者也在论文中提到CTPN是RPN的扩展,RPN在Faster R-CNN的相关论文中提出,Faster R-CNN作为CTPN的前身也是一项非常优秀的工作,RPN的提出使得当时目标检测有了突出的效果,与RPN相同的是CTPN也允许任意大小图像输入。
作者认为仅仅预测每个proposal的竖直位置会取得更好的准确率,这也是该论文的一个亮点,作者采用了一种垂直anchor的机制,可以同时预测出固定宽度的text pro