自然场景文本区域检测之CTPN

CTPN是自然场景文本检测的重要模型,利用BLSTM提取上下文信息。它扩展了RPN,通过垂直anchor预测文本行位置,实现端到端训练。VGG16作为特征提取网络,经过BLSTM和全连接层,输出文本分类和位置信息,最后通过非极大值抑制算法筛选结果。
摘要由CSDN通过智能技术生成

        CTPN是现在的主流自然场景文本区域检测模型中流传最广泛的模型之一,它可以同时检测水平或者稍微倾斜的自然场景下的文本。CTPN的全称为Connectionist Text Proposal Network,该模型在论文Detecting Text in Natural Image with Connectionist Text Proposal Network(ECCV2016)中提出,论文传送门:https://arxiv.org/abs/1609.03605

        文本区域检测与通常的图像目标检测不同的是,文本行为一个序列,而不是一个独立检测的目标,序列在检测过程中有好有坏,好处是可以利用序列的上下文信息对整个文本行做出判断,可以利用循环神经网络来学习文本的上下文信息,CTPN模型中采用BLSTM(Bi-directional LSTM,双向LSTM)提取文本字符在图像中的上下文信息,以此来提高文本块的识别精度,坏处是整体文本行的检测相比单个目标要难。

        CTPN中的P与RPN中的P为同一个词,proposal可以理解为图像中的一个个小区域,在CTPN中proposal的宽度是固定的,其实作者也在论文中提到CTPN是RPN的扩展,RPN在Faster R-CNN的相关论文中提出,Faster R-CNN作为CTPN的前身也是一项非常优秀的工作,RPN的提出使得当时目标检测有了突出的效果,与RPN相同的是CTPN也允许任意大小图像输入。

        作者认为仅仅预测每个proposal的竖直位置会取得更好的准确率,这也是该论文的一个亮点,作者采用了一种垂直anchor的机制,可以同时预测出固定宽度的text pro

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值