【Paper Reading】【EAST: An Efficient and Accurate Scene Text Detector】

Two parts:
  • 全卷积网络FCN
  • 非极大值抑制
Pipeline:
  • 像素级预测:单词级与文本行级
  • 几何形状:rotated boxes 与 quadrangles
  • 总体设计与DenseBox相似:
    • 将图片输入FCN
    • 一个预测通道输出[0, 1]像素值分数图,余下通道表示相对于每个像素的几何形状
Network Design:
  • 采用U-shape,保持上采样分支较小的同时逐渐融合特征图
    网络结构

  • feature extraction stem:PVANet

    • 在ImageNet上与训练的卷积网络
    • 四层特征图,大小为输入图片的1/32, 1/16, 1/8, 1/4
    • 实验中亦采用VGG16模型,提取pooling-2到pooling-5的特征
  • feature-merging branch:
    每一个merging stage,先将last stage的特征图输入unpooling layer进行double size,然后与当前的特征图串联起来;接下来用conv11 bottleneck减少通道数目和计算量,再用conv33融合信息并输出当前merging stage的结果。最后一个merging stage的结果输出到output layer

  • output layer:

    • 最终输出层包含数个conv1*1操作,将32个通道的特征图整合成单通道分数图Fs和一个多通道几何图Fg(RBOX 或 QUAD)
    • RBOX:几何形状用四个通道的axis-aligned bounding box (AABB) R和单通道rotation angle θ表示。其中四通道分别表示像素位置到矩形上右下左边界的距离。
    • QUAD:输出为8通道,pi=(Δxi,Δyi),i∈[1, 4],表示像素到四个顶点的偏移量
Label Generation:
  • 分数图多边形的positive area设计为shrunk version of the original one:
    label generation
Traning:

ADAM
512*512 crops from images
minibatch = 24
LR starts from1e-3, decays to 1/10 every 27300 minibatches and stop at 1e-5

Limitations:
  • 检测器能够处理的文本实例最大尺寸与网络的感受野成比例,从而限制了网络预测极端长度文本行(跨越整个图片)
  • 对于垂直文本实例可能误检或漏检
Future Work:
  • 调整几何形状组成,检测弯曲文本
  • 整合检测与识别
  • 将idea应用到一般目标检测
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值