9月1日目标检测学习笔记——文本检测

本文介绍了文本检测的两种主要方法:Top-Down和Bottom-up,并详细阐述了九种基于深度学习的文本检测模型,如CTPN、RRPN、EAST等,这些模型分别采用不同的策略来检测文本行和字符。此外,还列举了多个常用的数据集,如ICDAR、CTW和RCTW-17,用于训练和评估文本检测模型。
摘要由CSDN通过智能技术生成


前言

本文为9月1日目标检测学习笔记——文本检测,分为三个章节:

  • 类型;
  • 基于深度学习的文本检测模型;
  • 常见数据集。

定位文字所在区域。

一、类型

1、Top-Down

先检测文本区域,再找出文本线。

  • 缺点:
    1. 不考虑上下文;
    2. 不够鲁棒;
    3. 太多子模块。

2、Bottom-up

先检测字符,再串成文本线。


二、基于深度学习的文本检测模型

1、CTPN

  • 可检测水平或微斜的文本行;

  • 文本行可被看成一个字符序列,文本字符间上下文;

  • 数据后处理阶段:合并相邻的小文字块为文本行。

  • 网络结构:
    VGG16 + BLSTM + FC ⇒ 文字块坐标值和分类结果概率分布。

1

  • 步骤:

2

2、RRPN

  • 基于旋转区域候选网络的方案;

  • BBox ( x , y , h , w , θ ) (x, y, h, w, \theta) (x,y,h,w,θ),h 为短边,w 为长边,方向是长边的方向:

    • 生成带有文本方向角的倾斜候选框;
    • 在边框回归中学习文本方向角。
  • 网络结构:

3

  • VGG 16;
  • 多任务网络:交叉熵 + smooth L1;
  • 五元组 ( x , y , h , w , θ ) (x, y, h, w, \theta) (x,y,h,w,θ)
  • 改进 anchor:
    • 6个方向角: − π 6 : 2 π 3 : π 6 -\frac{\pi}{6} : \frac{2\pi}{3} : \frac{\pi}{6} 6π:32π:6π;
    • 文本框形状比例:1:2、1:5、1:8;
    • 54个R型锚点;
    • 分类层有 108个(2×54)个输出值,回归层有 270个(5×54)个输出值;
    • 锚点对应的 box 与 GT 的 IoU 值最大,标记为正样本;
    • 锚点对应的 box 与 GT 的 IoU 值>0.7,标记为正样本;
    • 锚点对应的 box 与 GT 的 夹角< π 12 \frac{\pi}{12} 12π,标记为正样本;

4

5

3、FTSN

  • 分割网络 + 倾斜文本检测 ⇒ 多任务;
  • Mask-NMS 代替传统 BBOX 的 NMS 算法过滤候选框;
  • ResNet-101 作基础网络;
  • 多尺度融合的特征图;

网络结构:

6

4、DMPNet

  • 使用四边形更紧凑地标注文本区域边界;
  • 使用共享蒙特卡洛方法精确计算多边形面积;
  • 基于一种序贯协议(定义点的顺序)确定四边形四个点的顺序:

7

  • Smooth L n L_n Ln loss;

5、EAST

  • 使用 FCN 生成多尺度融合的特征图,进行像素级的文本块预测;
  • 支持旋转矩形框、任意四边形两种文本区域标注形式;
  • 提供了方向信息,可检测各方向的文本;
  • 特征提取层:PVANet;
  • 特征融合层:上采样 + concat;
  • 输出层:1个 score map + 4个回归的框 + 1个角度信息。

8

6、SegLink

  • 改进版的 SSD,解决多方向的文字检测问题;
  • Segements + Link:可得到最后的文本行的 box ( x , y , w , h , θ ) (x, y, w, h, \theta) (x,y,w,h,θ)
  • Loss 函数: L ( y s , c s , y l , c l , s ^ , s ) = 1 N s L c o n f ( y s , c s ) + λ 1 1 N s L l o c ( s ^ , s ) + λ 2 1 N i L c o n f ( y l , c l ) L(y_s, c_s, y_l, c_l, \hat{s}, s ) = \frac{1}{N_s} L_{conf(y_s, c_s)} + \lambda_1 \frac{1}{N_s}L_{loc}(\hat{s}, s) + \lambda_2 \frac{1}{N_i}L_{conf}(y_l, c_l) L(ys,cs,yl,cl,s^,s)=Ns1Lconf(ys,cs)+λ1Ns1Lloc(s^,s)+λ2Ni1Lconf(yl,cl).

网络结构:

9

7、PixelLink

  • 基于实例分割的文本检测模型:自然场景图像中,一组文字块经常紧挨在一起,通过语义分割方法难以将它们识别开来。

流程:

  1. 特征提取:VGG16 基础上构建的 FCN 网络:
    10
    核心结构:
  • VGG16 + FPN;
  • 下采样:1/2,1/4;
  • 连接像素提取文本框;
  • 后处理去除噪声;
  • 损失函数:
    L p i x e l = 1 ( 1 + r ) S W L p i x e l _ C E L l i n k _ p o s = W p o s _ l i n k L l i n k _ C E L l i n k _ n e g = W n e g _ l i n k L l i n k _ C E L l i n k = L l i n k _ p o s ( r s u m ( W p o s _ l i n k ) + L l i n k _ n e g ( r s u m ( W n e g _ l i n k ) L_{pixel} = \frac{1}{(1+r)S} WL_{pixel\_CE} \\ L_{link\_pos} = W_{pos\_link} L_{link\_CE}\\ L_{link\_neg} = W_{neg\_link} L_{link\_CE}\\ L_{link} = \frac{L_{link\_pos}}{(rsum(W_{pos\_link})} + \frac{L_{link\_neg}}{(rsum(W_{neg\_link})} Lpixel=(1+r)S1WLpixel_CELlink_pos=Wpos_linkLlink_CELlink_neg=Wneg_linkLlink_CELlink=(rsum(Wpos_link)Llink_pos+(rsum(Wneg_link)Llink_neg

11
12

8、Textboxes

  • 改进的 SSD 算法:
    • 端到端训练;
    • 检测 + OCR;

网络结构:

13

  • 主干网络:VGG + 6个卷积层特征层;
  • Text-box layer:
    • 预测 72 维向量;
    • 12 个 default boxes;
    • 预测 4个偏差坐标值。
  • NMS;
  • Default box 的长宽比改为 1,2,3,5,7,10;
  • 1×5 滤波器代替 3×3 滤波器;
  • 仅包含文本行一种分类;
  • 多个比例图片输入;
  • Loss: L ( x , c , l , g ) = 1 N ( L c o n f ( x , c ) + α L l o c ( x , l , g ) ) L(x, c, l, g) = \frac{1}{N}(L_{conf}(x, c) + \alpha L_{loc} (x, l, g)) L(x,c,l,g)=N1(Lconf(x,c)+αLloc(x,l,g))

9、Textboxes++

  • 多方向文本;
  • 端到端。

网络结构:

14

  • VGG16(conv1_1 ~ conv5_3);

  • 最后两层用卷积层替换全连接层;

  • 额外加 8 个卷积层;

  • NMS 后处理;

  • 不同尺度的输入;

  • 文本框表示:四边形或矩形(8个值表示):
    15

  • default boxes 设置上下偏置;

  • 卷积核:3×3 ⇒ 3×5;

  • 多任务:CRNN 做 OCR;

  • 6 个不同的尺度上做 NMS。

  • 特殊处理:

    • 真值表示:多边形 + 角度;
    • 在线难例挖掘;
    • 数据增强;
    • 多尺度训练;
    • 级联的 NMS;
    • 多任务网络。

三、常见数据集

16

1、ICIAR

https://www.icdar.org/

2、Chinese Text in the Wild(CTW)

https://ctwdataset.github.io/

3、Reading Chinese Text in the Wild(RCTW-17)

4、ICPR MWI 2018

5、Total-text

6、Google FSNS 谷歌街景文本数据集

7、COCO-TEXT


  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值