分割文本_大话文本检测经典模型:Pixel-Anchor

b85415da88f16b8b7255d6b81e1154bb.png

文本检测是深度学习中一项非常重要的应用,在前面的文章中已经介绍过了很多文本检测的方法,包括CTPN(详见文章:大话文本检测经典模型CTPN)、SegLink(详见文章:大话文本检测经典模型SegLink)、EAST(详见文章:大话文本检测经典模型EAST)、PixelLink(详见文章:大话文本检测经典模型PixelLink),这些文本检测方法主要分为两类,一类是基于像素级别的图像语义分割方法(pixel-based),另一类是采用通用目标检测(使用锚点)的方法(anchor-based),这两种方法的优劣如下:

  • 基于像素级别的图像语义分割方法(pixel-based):通过图像语义分割获得可能的文本像素,通过像素点进行回归或对文本像素进行聚合得到文本框位置,经典的检测模型有PixelLink、EAST等。该方法具有较高的精确率,但对于小尺度的文本由于像素过于稀疏而导致检测率不高(除非对图像进行大尺度放大)。
  • 采用通用目标检测(使用锚点)的方法(anchor-based):在通用物体检测的基础上,通过设置较多数量的不同长宽比的锚来适应文本尺度变化剧烈的特性,以达到文本定位的效果,经典的检测模型有CTPN、SegLink等。该方法对文本尺度本身不敏感,对小尺度文本的检测率高,但是对于较长且密集的文本行而言,锚匹配方式可能会无所适从(需要根据实际调整不同大小的网络感受野,以及锚的宽高比)。另外,由于该方法是基于文本整体的粗粒度特征,而不是基于像素级别的精细特征,因此,检测精度往往不如基于像素级别的文本检测。

pixel-based、anchor-based方法示意图如下:

bf28186594b538eb0aa2c1f6fa76f114.png

那么有没有将pixel-based和anchor-based两种方法的优点结合在一起的检测方法呢?

答案是有的,这就是本文要介绍的端到端深度学习文本检测方法 Pixel-Anchor

1、Pixel-Anchor网络结构

Pixel-Anchor的网络结构如下图所示:

bb8a041b01b2bd1d58acc7e167003c7e.png

该网络采用ResNet-50作为网络的主干结构(ResNet网络的介绍详见文章:大话CNN经典模型ResNet),提取出1/4, 1/8, 1/16的feature map(特征图)出来,作为像素级别语义分割模块(Pixel based Module)和锚检测回

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值