自然场景文本区域检测之CTPN

最新推荐文章于 2024-07-29 09:11:11 发布

OOFelvis

最新推荐文章于 2024-07-29 09:11:11 发布

阅读量1.2k

点赞数

分类专栏：项目实训文章标签： ctpn 文本区域检测

本文链接：https://blog.csdn.net/OOFelvis/article/details/90581250

版权

CTPN是自然场景文本检测的重要模型，利用BLSTM提取上下文信息。它扩展了RPN，通过垂直anchor预测文本行位置，实现端到端训练。VGG16作为特征提取网络，经过BLSTM和全连接层，输出文本分类和位置信息，最后通过非极大值抑制算法筛选结果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

CTPN是现在的主流自然场景文本区域检测模型中流传最广泛的模型之一，它可以同时检测水平或者稍微倾斜的自然场景下的文本。CTPN的全称为Connectionist Text Proposal Network，该模型在论文Detecting Text in Natural Image with Connectionist Text Proposal Network(ECCV2016)中提出，论文传送门：https://arxiv.org/abs/1609.03605。

文本区域检测与通常的图像目标检测不同的是，文本行为一个序列，而不是一个独立检测的目标，序列在检测过程中有好有坏，好处是可以利用序列的上下文信息对整个文本行做出判断，可以利用循环神经网络来学习文本的上下文信息，CTPN模型中采用BLSTM（Bi-directional LSTM，双向LSTM）提取文本字符在图像中的上下文信息，以此来提高文本块的识别精度，坏处是整体文本行的检测相比单个目标要难。

CTPN中的P与RPN中的P为同一个词,proposal可以理解为图像中的一个个小区域，在CTPN中proposal的宽度是固定的，其实作者也在论文中提到CTPN是RPN的扩展，RPN在Faster R-CNN的相关论文中提出，Faster R-CNN作为CTPN的前身也是一项非常优秀的工作，RPN的提出使得当时目标检测有了突出的效果，与RPN相同的是CTPN也允许任意大小图像输入。

作者认为仅仅预测每个proposal的竖直位置会取得更好的准确率，这也是该论文的一个亮点，作者采用了一种垂直anchor的机制，可以同时预测出固定宽度的text pro