CRAFT:Character region awareness for text detection 论文阅读

Reference

Y. Baek, B. Lee, D. Han, S. Yun, and H. Lee, “Character region awareness for text detection,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2019, pp. 9365–9374.

正文

摘要

从前用严格的词边界训练方法来表示一个任意形状的文本区域存在一定的限制。本文给出的方法通过探索每个字符以及字符之间的相似性来实现。为了克服缺少字符级别注释的情况,我们的工作不仅使用了合成图像的字符标注,同时也使用了模型学习过程中估计出的真实字符级注释。实验结果表明提出的方法在复杂自然场景下,如任意方向、弯曲、以及形变文字都具有较高的灵活性。

引言

框架CRAFT,会产生一个字符区域得分和一个紧密关联得分。区域得分是用来定位图像中的单个字符,关联得分是用来分组每个字符成为一个单独实例。为了补偿字符水平标注的缺点,我们提出了弱监督学习框架来评估真实数据集中字符水平的标注。

相关工作

在深度学习方法出现之前,主流方法都是自底向上的,大多数利用人工设计特征,如MSER或SWT。最近深度学习的方法被采用,像物体检测方法SSD,以及语义分割方法FCN。
基于回归的文本检测方法
不像一般的物体检测方法,文本经常是不规则的形状以及各种长宽比。为了处理这些问题,TextBoxes++系列修改卷积核以及anchor boxes来捕获各种文本形状。Rotation-Sensitive Regression Detector (RSDD)充分利用旋转不变形特征来进行检测。这种检测方法只能检测矩形以及旋转矩形的文本区域,因此存在较大限制。
基于语义的文本检测方法
通过像素级的水平来寻找文本区域。SSTD通过注意力机制结合回归与语义分割方法在特征水平来增强文本区域联系减少背景的干扰。最近,TextSnake被提出通过预测文本区域以及几何特征的文本线。
端到端的文本检测
端到端的方法能同时检测文本以及识别文本,而且识别结果有助于增强检测结果。FOTS和EAA聚合了流行的检测与识别方法,以端到端的方式训练它们。Mask TextSpotter利用它模型统一的优势来对待识别任务作为一个语义分割任务。很明显,识别模块能帮助检测器更好的检测文本。
大多数检测文本的方法把单词作为基本单元,但是对于检测来说定义一个单词的大小是困难的,因为单词可以被各种规则分割,如含义,空格以及颜色。此外,单词分割的边界不能被严格的限制,所以单词分割本身没有明显的语义含义。这种单词模糊的标注无论对于回归还是对于语义分割方法来说都淡化了真实标注的意义。
字符级别的文本检测
Seglink 寻找部分文本区域并且联系这些区域用额外的连接预测。虽然Mask TextSpotter预测一个字符级水平的概率图,它是被用来文本识别而不是定位。
本文工作是受WordSup思想的启发,用一个弱监督框架来训练字符级水平的检测器。WordSup的一个缺点是字符表示是以矩形框的锚来展示的,由于不同角度拍摄造成的字符形变不容易被检测出来,而且它受到基本骨架性能的影响(如SSD的anchor数量以及尺寸大小)。

方法

我们的主要目标是精确的定位自然场景中每个字符,我们训练一个深度学习网络来预测字符区域以及字符间的紧密程度,因为没有公共的数据集可以利用,因此模型是以弱监督的方式来进行训练

架构

基于VGG-16的全卷积神经网络,带有BN作为骨架。我们的模型在解码阶段跳过连接,就像U-net聚合底层特征一样。最后的输出有两个通道作为分数图,区域分数和紧密连接分数。
在这里插入图片描述

训练

真实标签生成

在这里插入图片描述
region score:直接对样本中已知的每个box做2d高斯变换,得到区域分数GT
affinity score:利用字符级别的box,分别连接两对角的点,这样可以得到两个三角形,取三角形的中心作为affinity的角点,两个相邻的box的四个角点就构成了一个新的四边形。对生成的这些新的box做2d高斯变换,得到连接分数GT。

弱监督学习

不像合成的数据集,真实图片只有单词级别的注释。
在这里插入图片描述
最开始训练的是蓝色线,其利用Synth80k数据集进行有监督的训练。模型训练到一定强度后,进行弱监督训练(红色线与绿色线)
首先,从原图像裁剪单词级别的图像块;然后训练的模型预测区域分数;再用watershed算法来分割字符区域,即获得字符的标注框。最后再将标注转换到原图上。
但是,这样得到的“伪标签”未必是准确的。考虑到对文本识别区域是否准确的一个判断因素是单词长度,可利用该点来衡量伪标签的置信度:对于一个单词级别的标注样例W,让R(w)表示边框区域,l(w)表示w的长度。通过字符分割过程,我们可以获得字符边界框以及它们对应的长度,置信度Sconf(w)的得分计算为:
在这里插入图片描述
如果Sconf(w)置信度分数小于0.5,预测得到的字符边界框应该被忽视,因为在训练过程中它们会产生不利的影响。
对于单个像素p,像素置信图Sc被计算为:
在这里插入图片描述
损失函数L定义为在这里插入图片描述
S*r( p ) 表示生成标注的区域分数,S*a( p )表示生成标注的连接分数图。Sr( p )和Sa( p )分别表示预测的区域分数和连接分数。当用合成数据训练时,我们可以获得真实标注,所以Sc( p )设置为1。

推理

从Sr和Sa生成单词水平的边界box。首先,用二进制图M覆盖整个图片,初始化为0。M§设为1,如果Sr( p) > τr或Sa( p) > τa, τr是区域阈值,τa是连接阈值。随后执行M上的CCL(连通区域分析)。最后,四边形包围框通过寻找包围连接部分的最小旋转矩形来获得。
CRAFT的一个优势是不需要后处理方法,如NMS。因为我们有通过CCL进行单词区域分割的图像块。对于一个单词的包围框是通过封闭的矩形来定义的。特别指出的是,我们的字符连接过程是在像素水平进行的,与其它显式依靠搜寻文本连接部分连接方法不同。

结论

尺度不变性的粗壮性:本方法在所有数据集上都进行单尺度的测试,不像其它数据集依靠多尺度测试来解决尺度变化大的问题。这个优势来自于模型的对字符的定位。
多语言问题:我们的模型不能辨别孟加拉和阿拉伯字符,因为在合成的训练集不包含这些。
与端到端的方法对比:我们的方法仅仅来检测,但是它可以跟端到端的方法相媲美。
通用能力:我们的方法不用额外的数据在3个数据集上实现了最好的性能。这展现了我们模型的普遍适用性。

个人总结

核心思想:
1.提出单字分割以及单字间分割的方法,更符合目标检测这一核心概念,不是把文本框当做目标,这样使用小感受野也能预测大文本和长文本,只需要关注字符级别的内容而不需要关注整个文本实例
2.提出如何利用现有文本检测数据集合成数据得到真实数据的单字标注的弱监督方法

优势:
1)尺度不变性的粗壮性:本方法在所有数据集上都进行单尺度的测试,不像其它数据集依靠多尺度测试来解决尺度变化大的问题。这个优势来自于模型的对字符的定位。
2)不需要后处理方法。字符连接过程是在像素水平进行的,与其它显式依靠搜寻文本连接部分连接方法不同。
3)经改进后可识别多种形状的文本区域,如拱形等。
4)可结合字符分析器,直接实现字符的提取
不足:
不能很好的处理多语言问题,因为不是每种语言都可以被划分到一个个字符。

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Therock_of_lty

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值