【Paper Reading】Efficient and Accurate Arbitrary-Shaped Text Detection with Pixel Aggregation Network

本文介绍了一种名为像素聚合网络(PAN)的方法,旨在提高任意形状文本检测的速度和准确性。该方法与PSENet相似,但通过特征金字塔增强模块(FPEM)和特征融合模块(FFM)减少了计算量,提升了速度。FPEM使用分离卷积实现低成本的特征增强,而FFM则融合不同分辨率的特征图。PA模块利用聚类思想连接文本像素,通过训练中的聚合损失和歧视损失实现像素到核的聚合。这种方法在测试阶段能有效检测出连通的文本实例。
摘要由CSDN通过智能技术生成

Conference: ICCV 2019 poster
Source:https://arxiv.org/abs/1908.05900
Unofficial Code: https://github.com/WenmuZhou/PAN.pytorch
Feature: Fast + Curve

与 PSENet 的比较:
  • 文本检测的想法与 PSENet 一致,segmentation + kernel + Expansion
  • light-weight backbone 仅用于提取特征,使用单独设计的模块进行特征融合,取代 FPN / U-shape,从而减少计算量,提升速度
  • expansion 部分的参数在训练过程中习得,即本文提出的 Pexel Aggregation (PA),使用 pixel-wise predicted similarity vectors 进行文本行的连接/构建
    网络结构
FPEM:Feature Pyramid Enhancement Module

FPEM

  • 可以看作 low computation cost U-shape network
    使用 3x3 的separable convolution(depthwise conv)
    up-scale & down-scale enhancement
  • input:从 backbone 不同层级得到的,不同分辨率的特征图,即 feature pyramid
  • output:enhanced feature pyramid
  • 相对于 FPN / u-shape 的额外优势:
  1. cascadable module,根据需要可以增大模块数目,增加特征融合的程度,同时增大特征的感受野
  2. computationally cheap:built by separable convolution
FFM:Feature Fusion Module

FFM
融合各个 FPEM 输出的 feature pyramid

  1. 对相同深度/分辨率的特征图进行 element-wise addition
  2. 上采样、串联不同分辨率的特征图,最终输出特征图只含有4*128 channels
PA:Pixel Aggregation
  • 借用聚类的概念,kernels 可以看作 cluster centers,文本像素则是 samples to be clustered

  • 通过衡量 text pixel 与 kernel 之间的距离,来判定是否进行 aggregate

  • 训练阶段,使用 aggregation loss 来实现这一规则࿱

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值