简介
CTPN是在ECCV 2016提出的一种文字检测算法。CTPN结合CNN与LSTM深度网络,能有效的检测出复杂场景的横向分布的文字,效果如下图,是目前比较好的文字检测算法。
如下图所示,左面为传统RPN预测的框,右面为CTPN的框。由于RPN中anchor感受野的问题,不可能有一个anchor可以像传统的人车物检测那样覆盖了整行的文本。
CTPN
网络结构
CTPN结构与Faster R-CNN基本类似,但是加入了LSTM层。
CTPN 使用到了 CNN 和 双向LSTM 的网络结构:
- CNN使用了VGG16进行图像的特征提取。
- 双向LSTM对序列各元素前后的联系进行学习。
- 最后为一个全连接层输出要预测的参数
N:images
首先VGG16提取特征,获得大小为
N ∗ C ∗ W ∗ H N*C*W*H N∗C∗W∗H 的conv5 feature map。之后在conv5上做3*3的滑动窗口,即每个点都结合周围 3 ∗ 3 3*3 3∗3区域特征获得一个长度为 3 ∗ 3 ∗ C 3*3*C 3∗3∗C的特征向量。输出 N