PSENet笔记

0 摘要

现在的文本检测算法有两个挑战:
(1)可以很好的检测四边形,但是对任意形状不好使。
(2)文本区域太近,导致误检。

基于分割的方法可以解决第一个问题,但是对第二个问题却无能为力。PSENet可以很好检测任意形状,psenet生成不同尺度的kernel,逐步扩展小尺度kernel直到覆盖整个文本形状。小的kernel之间有更大的几何间隔,因为对于邻近的文本区域非常有效。

1 介绍

基于CNN的文本检测方法粗分为两类:基于检测的方法和基于分割的方法。
基于回归的方法可以检测带方向的矩形或者四边形,但是不能处理任意四边形。
基于分割的方法很难将很近的文本区域分开。

PSENet 的方法:

  1. 进行像素级别的分割。
  2. 逐步进行尺度扩张算法。每个文本区域分配多个分割区域,我们用kernel表示。每个kernel有着和文本区域一样的形状,但是尺度不同。
  3. 为获得最终的检测结果,我们采用基于BFS的逐步尺度扩张算法。(1)从最小尺度kernel开始;(2)通过更大的kernel扩张它们的区域;(3)直至找到整个文本区域结束。

使用PSENet有三个潜在原因:

  1. 小尺度kernel更容易将他们分开。
  2. 小尺度kernel不能覆盖整个文本区域。
  3. 逐步尺度扩张算法是一种简单高效的方法。

2 相关工作

2.1 基于回归的方法 regression-based methods

大部分基于回归的方法存在的问题:

  1. 需要复杂的anchor的设计
  2. 笨重的多阶段。
  3. 不能处理弯曲文本(curve texts)。

2.2 基于分割的方法 segmentation-based methods

过去基于分割的方法很少关注任意形状的文本。TextSnake可以检测任意形状,但是非常耗时,并且有复杂的后处理。

3 方法

在这里插入图片描述

3.1 整体流程

  1. 使用ResNet作为骨干网络。

3.2 网络设计

3.3 尺度扩张算法

3.4 label 生成

参考

  1. PSENet原理介绍
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

张欣-男

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值