分割文本_文本检测综述

本文详细梳理了文本检测的难点,包括背景多样化、形状和方向多样化等,并介绍了基于候选框、分割和混合方法的深度学习文本检测技术,涵盖Faster RCNN、SSD、RFCN等模型,探讨了各种方法的优势和应用场景。
摘要由CSDN通过智能技术生成

120f541d98aee0d9cc56b85976290937.png

文本检测的相关研究整理(拷贝),持续更新。。。

综述参考:

1 SIGAI:自然场景文本检测识别技术综述

2 https://zhuanlan.zhihu.com/p/52335619

文本检测的难点

  • 背景多样化.自然场景下,文本行的背景可以为任意,同时还会受一些结构相近的背景影响(如栅栏)
  • 文本行形状和方向的多样化.如水平、垂直、倾斜、曲线等
  • 文本行颜色、字体、尺度的多样化
  • 不同程度的透视变换
  • 恶劣的光照条件和不同程度的遮挡

文本检测的今生

目前文本检测领域的深度学习方法主要包括:基于候选框的文本检测(Proposal-based)、基于分割的文本检测(Segmentation-based)、基于两者方法混合的文本检测(Hybrid-based)、其它方法的文本检测.对于基于候选框的文本检测,其基本思路是先利用若干个default boxes(也称anchor)产生大量的候选文本框,再经过NMS得到最终的检测结果.对于基于分割的文本检测,其基本思路是通过分割网络结构进行像素级别的语义分割,再基于分割的结果构建文本行.

2dcd95681e407f75a884366543d60869.png

基于候选框的文本检测(Proposal-based)

基于候选框的文本检测,最经典的就是基于Faster-RCNN、SSD、RFCN.

基于Faster RCNN的文本检测

1 SLPR

Sliding Line Point Regression for Shape Robust Scene Text Detection(2018)

  • 提出基于滑线点回归(SLPR),优势就是SLPR可以检测任意形状文本
  • 整体框架基于2-stage框架 Faster-Rcnn 或者 RFCN
  • 其中,SLPR水平垂直分别用了7条等距线,对于一个多边形需要预测32个参数,bbox(4) + 文本与水平线交点(14) + 文本与垂直线交点(14)

40375b18dc2169f2d3749fd6205c7845.png
  • 上图说明的是两种情况:对于水平和垂直的各14个点的后期使用,可以选择使用长边的预测的14个,忽略短边的预测的14个。也可以两个预测求平均使用。
  • 如上图所示,只有水平或者垂直的14个点还不能确定这个多边形框。还少4个红色的实心点。这4个红色的实心点是对水平或者垂直的14个点进行连线,然后顺延这个连线和外面蓝色的框相交的交点。因此,还需要预测box的4个点。
  • 网络结构:

d5683ab7c4b05a481257b45622e26ca4.png
  • 实验结果

1f624347296d5047a8fcaeaf00987702.png

d6b834c5dc46023314308918267ae91e.png
  • 还包括对不同nms方式的对比。见论文

2 FFST(特征融合)

  • 找不到论文,该想法来源于网上
  • 基于原生的fast-rcnn框架
  • 在RPN网络种和特征提取网络中使用特征融合,主要针对的是多尺度的文本检测问题
  • 思路清晰如下:

<
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值