[论文复现]Detecting Text in Natural Image with Connectionist Text Proposal Network

最近一直在复现这篇论文,除了数据外已基本完成,可是没想到昨天开源了[code],不过作者不公开对于识别很重要的side refinement模块,算是一个阉割版,附上个人的一些中间结果(只训练了200多张图片,网络架构,参数等跟作者的有些出入),

主要是这篇论文步骤比较简单,如果比较清楚RPN,基本没什么说的。论文的思想主要借鉴了faster rcnn的rpn思想,主要的不同点在于作者观测到RPN比较难预测出整个文本行的框,而将文本行分成一个一个的小框去预测,小框是固定宽度所以主要是预测高度,如果用的是VGG conv5的特征,那么高度就是16。(另外插一个小知识点,本人以前也错过,卷积层的size和pool层的数量没关系,跟stride有关系)

第二点是加入了双向LSTM,根据论文的数据LSTM的作用还是很大,因为在其他论文中不需要双向LSTM,依靠感受野也能分析出来,是不是可以设计一个不同的网络搞定这个问题。

最后一个小不同就是为了精确定位加入了side regression,不过根据我个人训练的结果还是要看具体的文字,如果文字复杂些,还是搞不定。

另外个人感觉作者将一个文本行分解成一个一个小块来做是比较实用的策略,降低了特征空间,又不会像另外一篇论文那种使用像素级labeling把问题搞得非常复杂

问题:

1没有很好地处理多方向的文本行

2训练的时候由于有regression和LSTM,需要小心控制梯度爆炸。

 

2017/2/15更新

根据作者提供的测试代码重新修改了训练代码(发现自己写的跟作者的还是有比较大的差距的),加入了side refinement,数据方面自己标注了2000多张图片,最后的训练效果肯定跟作者的有出入

 

 

 

 

 

 

 

  • 6
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 31
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 31
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值