文章目录
文章被收录于ICCV2019
[论文地址]http://openaccess.thecvf.com/content_ICCV_2019/html/Sun_Chinese_Street_View_Text_Large-Scale_Chinese_Text_Reading_With_Partially_ICCV_2019_paper.html
[代码地址]暂未找到
摘要
- 由于训练数据有限,现有的基准很难评估大量词汇的深度学习模型的性能,本文提出新的基准数据集Chinese Street View Text (C-SVT)。
- C-SVT由430,000张图片组成,其中30,000张图片是抢标注图像(所有的文字区域与label),剩余的400,000张图片为弱标注文本(只有感兴趣区域文本的label,有些区域并不关注)。
- 为了从弱标记图像中定位出最佳匹配的文本建议,本文在整个模型中加入了一个在线建议匹配模块,通过共享参数来定位关键词区域进行端到端的训练。
简介
本文贡献:
- 提出了全新的大规模中文文本阅读基准C-SVT,包括强标注与弱标注图像,是现存中文文本数据集量的14倍。
- 本文提出了一个端到端可训练模块来利用大规模弱标注图像,该模块既可以从强标注中学习,也可以从弱标注中学习,从而定位和识别文本。
- 本文提出的部分监督的模型在性能上可以超过全监督的模型,且在ICDAR 2017-RCTW上达到了最优结果。
相关工作
文本阅读基准
英文文本数据集:
中文文本数据集:
端到端文本阅读
[40], [12], [18], [23]将文本阅读分为检测与识别两步,[22], [7], [5], [6], [28], [14], [29], [37]通过共享特征的方式将两步变为端到端的方式。
检测:[8], [22], [29]使用了区域推荐网络RPN生成文本区域,[14], [28], [37]采用全卷积网络预测文本区域。
识别:[11], [4]使用 CTC (Connectionist Temporal Classification)[7], [28]和基于注意力的LSTM解码器,将单个字符识别为序列。
弱监督和部分监督学习
弱监督的文本检测方法[38], [15]使用字符级别的边界框来检测文本,并使用单词级别的边界框来提升准确率。
方法
本文提出的模型由骨干网络、文本检测分支、透视RoI(感兴趣区域)转换、文本识别分支和在线推荐匹配模块组成,如图4所示:
端到端中文文本阅读
文本能检测分支:本文采用ResNet-50作为骨干网络,加上全卷积模块构成文本检测分支,共同完成文本/非文本分类与文本位置回归。
训练阶段:使用的损失函数为:
L
d
e
t
=
L
l
o
c
+
λ
L
c
l
s
L_{det}=L_{loc}+\lambda{L_{cls}}
Ldet=Lloc+λLcls,其中
L
l
o
c
L_{loc}
Lloc是计算位置回归的平滑L1损失,
L
c
l
s
L_{cls}
Lcls是文本/非文本分类的筛子损失(dice loss),
λ
\lambda
λ是超参。
测试阶段:将阈值用于文本分类的概率且使用NMS筛选选定的四边形区域。
Perspective RoI Transform:将特征图 F F F中的对应区域,对齐为小特征图 F p F_p Fp。每一个 F p F_p Fp保持在具有不变的纵横比的固定高度,当高度/宽度大于1时,此时将每条垂直线(不太理解)沿顺时针方向旋转90度,从而实现识别水平和垂直文本。
文本识别分支:本文在识别分支中采用了基于注意力的编解码框架和RNN作为编码器,将 F p F_p Fp作为输入,识别分支提取具有堆叠卷积层的顺序文本特征 F s F_s Fs,其中RNN的循环单元采用GRU(Gated Recurrent Unit)。
部分监督学习
Online Proposal Matching
本文提出的OPM目的是通过关键字注释 y w y^w yw来定位文本,即生成一组text proposals,记作 { P w ( i ) } i = 1 N \left\{P^{w}(i)\right\}_{i=1}^{N} {Pw(i)}i=1N,其中 N N N为预测得到的text proposals数目。
然后,通过perspective RoI提取每个proposal中的特征图,然后使用CNN-RNN编码器编码成为序列特征 F s w F_s^w Fsw。为了计算 F s w F_s^w Fsw和弱标签 y w y^w yw之间的相似程度,本文在OPM模块中采用了基于注意力的RNN解码器来计算解码状态(decoder states) { h t w } t = 1 T w \left\{{h_t^w}\right\}_{t=1}^{T^w} {htw}t=1Tw, T w T^w Tw是时间步长的数目,也是标签 y w y^w yw的长度。
为了选择正确的proposals,OPM直接计算嵌入空间(embedding space )
f
(
⋅
)
f(\cdot)
f(⋅)中对于每一个text proposal的解码状态和标签
y
w
y^w
yw的字符嵌入(character embedding)
{
e
t
w
}
t
=
1
T
w
\left\{\mathbf{e}_{t}^{w}\right\}_{t=1}^{T^{w}}
{etw}t=1Tw的欧几里得距离
d
w
(
i
)
d^w(i)
dw(i)
d
w
(
i
)
=
1
T
w
∑
t
=
1
T
w
∥
f
(
h
t
w
,
W
h
)
−
f
(
e
t
w
,
W
e
)
∥
d^{w}(i)=\frac{1}{T^{w}} \sum_{t=1}^{T^{w}}\left\|f\left(\mathbf{h}_{t}^{w}, \mathbf{W}_{h}\right)-f\left(\mathbf{e}_{t}^{w}, \mathbf{W}_{e}\right)\right\|
dw(i)=Tw1t=1∑Tw∥f(htw,Wh)−f(etw,We)∥
W h W_h Wh和 W e W_e We分别是嵌入空间中编码 h t w h^w_t htw和 e t w e^w_t etw的参数。
OPM模块使用成对loss,
L
o
p
m
=
1
N
∑
i
=
1
N
[
s
w
(
i
)
]
2
L_{o p m}=\frac{1}{N} \sum_{i=1}^{N}\left[s^{w}(i)\right]^{2}
Lopm=N1i=1∑N[sw(i)]2
当text proposal
P
w
(
i
)
P^w(i)
Pw(i)是与
y
w
y^w
yw匹配的正样本时,
s
w
(
i
)
=
d
w
(
i
)
s^{w}(i)=d^{w}(i)
sw(i)=dw(i);反之,
s
w
(
i
)
=
max
(
0
,
1
−
d
w
(
i
)
)
s^{w}(i)=\max(0,1-d^w(i))
sw(i)=max(0,1−dw(i))。而正负样本的划分是通过检查
P
w
(
i
)
P^w(i)
Pw(i)与
y
w
y^w
yw的IoU来确定的。
全监督和弱监督的结合训练
对于全监督的训练来讲,其中的loss为 L full = L det + β L recog L_{\text {full}}=L_{\text {det}}+\beta L_{\text {recog}} Lfull=Ldet+βLrecog, β \beta β是权衡两个loss的超参。
对于部分监督来讲,其中的loss为
L
r
e
c
o
g
w
=
1
∑
i
=
1
N
m
(
i
)
∑
i
=
1
N
m
(
i
)
l
r
e
c
o
g
w
(
i
)
L_{r e c o g}^{w}=\frac{1}{\sum_{i=1}^{N} m(i)} \sum_{i=1}^{N} m(i) l_{r e c o g}^{w}(i)
Lrecogw=∑i=1Nm(i)1i=1∑Nm(i)lrecogw(i)
本文设定一个阈值
τ
\tau
τ,目的是为了选择正确的text proposal。当
d
w
(
i
)
≤
τ
d^{w}(i) \leq \tau
dw(i)≤τ时,
m
(
i
)
=
1
m(i)=1
m(i)=1,否则
m
(
i
)
=
0
m(i)=0
m(i)=0。
第
i
i
i个text proposal鉴别损失函数被定义为负对数似然函数:
l
r
e
c
o
g
w
(
i
)
=
−
1
T
w
∑
t
=
1
T
w
log
p
(
y
t
w
∣
y
t
−
1
w
,
h
t
−
1
w
,
c
t
w
)
l_{r e c o g}^{w}(i)=-\frac{1}{T^{w}} \sum_{t=1}^{T^{w}} \log p\left(\mathbf{y}_{t}^{w} | \mathbf{y}_{t-1}^{w}, \mathbf{h}_{t-1}^{w}, \mathbf{c}_{t}^{w}\right)
lrecogw(i)=−Tw1t=1∑Twlogp(ytw∣yt−1w,ht−1w,ctw)
其中的
c
t
w
c^w_t
ctw表示的是在
t
t
t时刻,通过注意力机制计算的上下文向量。
部分监督学习总的loss为
L
t
o
t
a
l
=
L
d
e
t
+
β
(
L
r
e
c
o
g
+
L
r
e
c
o
g
w
)
L_{t o t a l}=L_{d e t}+\beta\left(L_{r e c o g}+L_{r e c o g}^{w}\right)
Ltotal=Ldet+β(Lrecog+Lrecogw)
训练流水线
本文提出的部分监督框架的训练过程建立在完全监督的文本阅读模型的基础上,可分为两个阶段:
阶段一:首先训练全监督的OPM模块,然后通过从完整标注的图片上生成假的弱标签。本文随机选择一个标记的文本实例作为关键字区域,并生成一组文本建议(text proposals)。为了训练OPM,本文计算每一个text proposal与选择的关键字区域的IoU,当IoU小于0.5时,记作负样本;将选择的关键字的区域作为正样本。
阶段二:阶段一完成后,进一步根据部分监督Loss函数 L t o t a l L_{total} Ltotal来训练整个模型,此时全标注和部分标注的数据都被用于训练。
实验
本文中定义平均编辑距离Average Edit Distance记作AED。R、P、F分别代表Recall、Precision、F-score,三个值越高性能越好;AED约低性能越好。
定性与定量结果
定性结果:如图5所示,上一行为仅采用全标注的图像训练的模型效果,下一行为部分监督模型训练的效果。
定量结果:首先注明,End2End为仅采用全标注图像训练的模型,End2End-PSL代表端到端的部分监督的学习模型。
另外,全标注4.4K额外图像与弱标注400K需要的代价差不多,如表3所示,在测试集上,End2End-PSL + 400K Weak较End2End+4.4K Extra Full在F-score提升4.03%,在AED上降低了1.47%;而End2End-PSL + 50K Weak与End2End + 10K Extra Full效果差不多,但50K Weak的工作成本仅仅只为10K Extra Full的
1
12
\frac{1}{12}
121,说明了弱标注的样本对效果的提升提供了很大的帮助。
比较其他方法
End2End2-MS为多尺度训练模型。从表4中可以看出End2End-PSL比End2End降低了AED3.3%;在多尺度测试中,End2End-PSL-MS在AED上取到了22.1%的最优成绩。
模型设计的有效性
Online Proposal Matching:表5中使用随机选择的500张弱标注图片,使用不同的阈值
τ
\tau
τ来选择text proposals。当
τ
=
0.1
\tau=0.1
τ=0.1时,具有可接受的Recall和较高的Precision。
部分匹配样本如下图所示:
c图中显示即使GT被包含到了多个text proposals中,模型一样可以检测出来。d图展示了GT被划分到了不同的text proposals中,会导致Recall比较低。
弱标注的识别有效性
总结
- 提出了C-SVT最大的中文文本检测基准
- 提出了在线建议匹配模块(OPM)来训练部分监督的端到端的模型,同时可以从强标注与弱标注样本中学习。
- 与强标注相比,加入了弱标注的学习可以在F-score上提升4.03%;在 ICDAR 2017-RCTW达到了最优。