文字定位 CTPN-黄伟林

论文翻译汇总
https://github.com/SnailTyan/deep-learning-papers-translation

2016年 ECCV

业界现在物体识别领域用的最多的是proposal region方法,即通过筛选出候选区域,然后对候选区域进行二分类(object/ no object), 同时还要对bound box进行回归,这是一般的物体识别所用的方法。 
CTPN这个方法是基于 fast-rCNN来进行的,具体来说就是同样通过筛选proposal region来识别出文字区域, 不同的是,它修改了RPN方法中的anchor产生window的方式,CTPN方法中的proposal region是固定宽度的(论文中是16px), 这样做的好处是可以发现任意宽度的文字序列。

ctpn方法的关键,将一个3 x 3的划窗划过整个feature map,每经过一个位置得到一个3 x 3 x C的特征向量,而对于每个窗口来说,都会有k = 10个anchor,也就是每个anchor产生一个text proposal,依次将这些特征输入一个双向LSTM中
https://gitee.com/mickelfeng/text_detection

CTPN 论文介绍:
文本检测和一般目标检测的不同——文本线是一个sequence(字符、字符的一部分、多字符组成的一个sequence),而不是一般目标检测中只有一个独立的目标。
难点体现在要检测出一个完整的文本线,同一文本线上不同字符可能差异大,距离远,要作为一个整体检测出来难度比单个目标更大。

CNN用来提取深度特征,RNN用来做序列的特征识别。RNN和CNN的无缝结合可以提高检测精度。
深度特征:图像深度层次特征(DHF),通过对图像的层层抽象表达,可以有效挖掘隐藏在图像内部的本质信息。

Side-refinement:文本线构造算法(多个细长的proposal合并成一条文本线)


RNN类型:BLSTM(双向LSTM),每个LSTM有128个隐含层神经元
 

这篇文章的方法最大亮点在于把RNN引入检测问题(以前一般做识别)。
文本检测,先用CNN得到深度特征,然后用固定宽度的anchor来检测text proposal(文本线的一部分),并把同一行anchor对应的特征串成序列,输入到RNN中,最后用全连接层来分类或回归,并将正确的text proposal进行合并成文本线。
https://blog.csdn.net/zchang81/article/details/78873347

文本检测的其中一个难点就在于文本行的长度变化是非常剧烈的。因此如果是采用基于faster rcnn等通用物体检测框架的算法都会面临一个问题?怎么生成好的text proposal?这个问题实际上是比较难解决的。
因此在这篇文章中作者提供了另外一个思路,检测一个一个小的,固定宽度的文本段,然后再后处理部分再将这些小的文本段连接起来,得到文本行。

基本想法就是去预测文本的竖直方向上的位置,水平方向的位置不预测。因此作者提出了一个vertical anchor的方法。与faster rcnn中的anchor类似,但是不同的是,vertical anchor的宽度都是固定好的了,论文中的大小是16个像素。而高度则从11像素到273像素变化,总共10个anchor.

对于水平的文本行,其中的每一个文本段之间都是有联系的,因此作者采用了CNN+RNN的一种网络结构,检测结果更加鲁棒。
http://slade-ruan.me/2017/10/22/text-detection-ctpn/

CTPN 代码
https://github.com/tianzhi0549/CTPN  (同caffe编译失败)

升级版CTPN
https://github.com/qingswu/CTPN
 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

WX Chen

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值