CTPN: Detecting Text in Natural Image with Connectionist Text Proposal Network

paper
code

1. 区别

本文工作基于faster RCNN , 区别在于

  1. 改进了rpn,anchor产生的window的宽度固定为3。
  2. rpn后面不是直接接全连接+分类/回归,而是再通过一个LSTM,再接全连接层。
  3. 坐标仅仅回归一个y,而不是x1, y1, x2, y2
  4. 添加 side-refinement offsets(可能这个就是4个回归值中的其中2个)

2. 问题分析

  1. 文字目标的特殊性,一个很大的先验是,文字总是水平排列的。
  2. 文字的特征总感觉体现在edge上。
  3. 自然场景文字检测的难点在于:小目标,遮挡,仿射畸变。本文使用VGG16,只使用conv5,可能对小文字的检测效果不好。

    1.png

3. 实验

CTPN用在ICDAR2017中文检测数据集上的结果:AP=0.18

1.检测准确率和目标大小的关系

2.png
图1

3.png
图2

图1、2是目标重叠率和目框面积的关系,其中图1是手工标记框和预测框的重叠率,纵坐标低于0.5表示漏检测;图2是预测框和手工标记框的重叠率,纵坐标低于0.5表示错检测。

当目标比较小时,漏检测和误检测的数量比较多。图片如下:

4.png

5.png

2.检测准确率和目标长宽比的关系

6.png
图3

7.png
图4

图3、4分别是重叠率和目标长宽比的关系。图3的横坐标是手工标记的目标长宽比,最大能到20,图4的横坐标最大只有1(anchor的限制)。该算法对于垂直排列的中文汉字,识别率很低(毕竟只是针对英文文字的检测,英文字母只有水平排列)这是这个算法本身的限制所在。

8.png

9.png

  • 2
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 5
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值