【Paper Reading】Efficient and Accurate Arbitrary-Shaped Text Detection with Pixel Aggregation Network

最新推荐文章于 2022-04-09 19:22:30 发布

surfman777

最新推荐文章于 2022-04-09 19:22:30 发布

阅读量408

点赞数

分类专栏：场景文本检测文章标签：深度学习计算机视觉

本文链接：https://blog.csdn.net/Ocelot777/article/details/104750756

版权

本文介绍了一种名为像素聚合网络（PAN）的方法，旨在提高任意形状文本检测的速度和准确性。该方法与PSENet相似，但通过特征金字塔增强模块（FPEM）和特征融合模块（FFM）减少了计算量，提升了速度。FPEM使用分离卷积实现低成本的特征增强，而FFM则融合不同分辨率的特征图。PA模块利用聚类思想连接文本像素，通过训练中的聚合损失和歧视损失实现像素到核的聚合。这种方法在测试阶段能有效检测出连通的文本实例。

摘要由CSDN通过智能技术生成

Conference: ICCV 2019 poster
Source：https://arxiv.org/abs/1908.05900
Unofficial Code: https://github.com/WenmuZhou/PAN.pytorch
Feature: Fast + Curve

与 PSENet 的比较：

文本检测的想法与 PSENet 一致，segmentation + kernel + Expansion
light-weight backbone 仅用于提取特征，使用单独设计的模块进行特征融合，取代 FPN / U-shape，从而减少计算量，提升速度
expansion 部分的参数在训练过程中习得，即本文提出的 Pexel Aggregation (PA)，使用 pixel-wise predicted similarity vectors 进行文本行的连接/构建

FPEM：Feature Pyramid Enhancement Module

FPEM

可以看作 low computation cost U-shape network
使用 3x3 的separable convolution(depthwise conv)
up-scale & down-scale enhancement
input：从 backbone 不同层级得到的，不同分辨率的特征图，即 feature pyramid
output：enhanced feature pyramid
相对于 FPN / u-shape 的额外优势：