【读点论文】Character Region Awareness for Text Detection通过预训练合成数据实现字符级的弱监督训练，加入分水岭实现字符分割，对连接类的语种不具适配性

羞儿

于 2024-09-30 10:43:26 发布

阅读量604

点赞数 19

分类专栏：论文笔记文章标签：人工智能计算机视觉深度学习文字检测 ocr

本文链接：https://blog.csdn.net/weixin_43424450/article/details/142651451

版权

论文笔记专栏收录该内容

170 篇文章 37 订阅

订阅专栏

Character Region Awareness for Text Detection

Abstract

基于神经网络的场景文本检测方法最近出现并显示出有希望的结果。以前使用刚性字级边界框训练的方法在以任意形状表示文本区域时表现出局限性。在本文中，我们提出了一种新的场景文本检测方法，通过探索每个字符和字符之间的亲和力来有效地检测文本区域。为了克服缺乏单个字符级注释的问题，我们提出的框架利用了合成图像的给定字符级注释和由学习的临时模型获取的真实图像的估计字符级基本事实。为了估计字符之间的亲和力，使用新提出的亲和力表示来训练网络。在六个基准上进行的大量实验，包括包含自然图像中高度弯曲文本的 TotalText 和 CTW-1500 数据集，表明我们的字符级文本检测明显优于最先进的检测器。根据结果，我们提出的方法保证了在检测复杂场景文本图像（例如任意方向、弯曲或变形的文本）时的高度灵活性。
论文地址：[1904.01941] Character Region Awareness for Text Detection (arxiv.org)
利用了分割的方法，但与普通的图像分割不同的是，**CRAFT不是对整个图像的进行像素级分割（如Faster-Rcnn）,它将一个character视为一个检测目标对象，而不是一个word（所有的word都由character构成），即不把文本框当做目标。**故，它先检测单个字符（character region score）及字符间的连接关系（affinity score），然后根据字符间的连接关系确定最终的文本行。这样做的好处在于：使用小感受野也能预测大文本和长文本，只需要关注字符级别的内容而不需要关注整个文本实例。
在训练过程中对于合成样本可以很好地进行单个字符的标注，但是对于现有的文本数据库，其标注方式基本是基于文本行的，所以文中提出了如何利用现有文本检测数据集合成数据得到真实数据的单字标注的弱监督方法。字符级别的文本检测网络，用的是分水岭算法生成label，采用heatmaps去得到激活值最大的目标区域，有点attention的感觉。
对于训练标签生成，与以往分割图(以二值化的方式离散标记每个像素的label)的生成方式不同，**CRAFT采用高斯热度图来生成region score和affinity score.**采用高斯热度图的好处:它能很好地处理没有严格包围的边界区域。
CRAFT可以用于处理任意方向文本、曲线文本、畸变文本等。该方法具有如下特性：对尺度变换具有较好地鲁棒性，本文都是基于单尺度图像进行实验的；本文模型不能适用与粘连的语言，如Bangla and Arabic characters；相比于端到端的文本检测方法，该方法在训练的时候借助了文本长度，泛化能力较强。

Introduction

场景文本检测因其众多应用而引起了计算机视觉领域的广泛关注，例如即时翻译、图像检索、场景解析、地理定位和盲人导航。最近，基于深度学习的场景文本检测器表现出了良好的性能。这些方法主要训练其网络以定位字级边界框。然而，它们可能会在困难的情况下受到影响，例如弯曲、变形或极长的文本，这些文本很难用单个边界框检测到。或者，字符级感知在处理具有挑战性的文本时具有许多优势，它以自下而上的方式链接连续的字符。不幸的是，现有的大多数文本数据集都没有提供字符级的标注，而获取字符级基本事实所需的工作成本太高。
在本文中，我们提出了一种新颖的文本检测器，它可以定位单个字符区域并将检测到的字符链接到文本实例。我们的框架称为“用于文本检测的字符区域感知”的 CRAFT，采用卷积神经网络设计，可产生字符区域分数和亲和力分数。区域分数用于定位图像中的单个字符，亲和力分数用于将每个字符分组为单个实例。为了弥补字符级注释的不足，我们提出了一个弱监督学习框架，该框架可在现有的真实单词级数据集中估计字符级基本事实。
图 1 是 CRAFT 对各种形状文本的结果的可视化。通过利用字符级区域感知，可以轻松表示各种形状的文本。我们在 ICDAR 数据集上进行了广泛的实验来验证我们的方法，实验表明，所提出的方法优于最先进的文本检测器。此外，在 MSRATD500、CTW-1500 和 TotalText 数据集上的实验表明，所提出的方法在复杂情况下（例如长文本、曲线文本和/或任意形状的文本）具有很高的灵活性。
- 图 1. 使用 CRAFT 对字符级检测进行可视化。（a）我们提出的框架预测的热图。（b）各种形状的文本的检测结果。

Related Work

在深度学习出现之前，场景文本检测的主要趋势是自下而上的，其中大部分使用手工制作的特征（例如 MSER 或 SWT ）作为基本组成部分。最近，基于深度学习的文本检测器已经通过采用流行的对象检测/分割方法（如 SSD 、Faster R-CNN 和 FCN ）而提出。
基于回归的文本检测器：已经提出了各种使用改编自流行物体检测器的框回归的文本检测器。与一般的物体不同，文本通常以各种长宽比的不规则形状呈现。为了解决这个问题，TextBoxes 修改了卷积核和锚框，以有效捕获各种文本形状。DMPNet 试图通过加入四边形滑动窗口进一步减少这个问题。最近，提出了旋转敏感回归检测器 (RSDD) ，它通过主动旋转卷积滤波器充分利用旋转不变特征。然而，使用这种方法时，在捕获现实中存在的所有可能形状的结构限制。
基于分割的文本检测器另一种常见方法是基于处理分割的工作，其目的是在像素级别寻找文本区域。这些通过估计单词边界区域来检测文本的方法，例如多尺度 FCN 、整体预测和 PixelLink 也都是以分割为基础提出的。SSTD 试图从回归和分割方法中获益，通过使用注意力机制来增强文本相关区域，从而减少特征级别的背景干扰。最近，TextSnake 被提出通过预测文本区域和中心线以及几何属性来检测文本实例。
端到端文本检测器端到端方法同时训练检测和识别模块，以便利用识别结果提高检测准确率。FOTS 和 EAA 将流行的检测和识别方法连接起来，并以端到端的方式进行训练。Mask TextSpotter 利用其统一模型将识别任务视为语义分割问题。很明显，使用识别模块进行训练有助于文本检测器对类似文本的背景杂波具有更强的鲁棒性。大多数方法以单词为单位检测文本，但定义单词的范围以进行检测并非易事，因为单词可以通过各种标准（例如含义、空格或颜色）进行区分。此外，单词分割的边界无法严格定义，因此单词分割本身没有明确的语义含义。单词注释中的这种歧义削弱了回归和分割方法的基本事实的含义。
字符级文本检测器 Zhang 等人提出了一种字符级检测器，使用由 MSER 提炼出的文本块候选。由于使用 MSER 来识别单个字符，因此在某些情况下（例如低对比度、曲率和光反射的场景）限制了其检测的鲁棒性。Yao 等人使用了字符预测图以及需要字符级注释的文本单词区域和链接方向图。Seglink 不是使用明确的字符级预测，而是寻找文本网格（部分文本段）并将这些段与额外的链接预测相关联。尽管 Mask TextSpotter 可以预测字符级概率图，但它是用于文本识别而不是发现单个字符。
这项工作的灵感来自 WordSup 的理念，它使用弱监督框架来训练字符级检测器。然而，Wordsup 的一个缺点是字符表示是在矩形锚中形成的，这使得它容易受到由变化的相机视点引起的字符透视变形的影响。此外，它还受到主干结构性能的约束（即使用 SSD 并受到锚框数量及其大小的限制）。

Methodology

我们的主要目标是精确定位自然图像中的每个字符。为此，我们训练了一个深度神经网络来预测字符区域和字符之间的亲和力。由于没有可用的公共字符级数据集，因此该模型以弱监督方式进行训练。

Architecture

我们采用基于 VGG-16 的全卷积网络架构和批量归一化作为主干。我们的模型在解码部分有跳过连接，这与 U-net 类似，因为它聚合了低级特征。最终输出有两个通道作为得分图：区域得分和亲和力得分。网络架构如图 2 所示。
- 图 2.我们的网络架构示意图。

Training

Ground Truth Label Generation

对于每张训练图像，我们用字符级边界框为区域得分和亲和力得分生成真实标签。区域得分表示给定像素是字符中心的概率，亲和力得分表示相邻字符之间空间的中心概率。
与离散标记每个像素的二元分割图不同，我们使用高斯热图对角色中心的概率进行编码。由于该热图表示在处理不受严格限制的地面真实区域时具有很高的灵活性，因此已在其他应用中使用，例如在姿势估计工作中。我们使用热图表示来学习区域得分和亲和力得分。
图 3 总结了合成图像的标签生成流程。直接计算边界框内每个像素的高斯分布值非常耗时。由于图像上的字符边界框通常通过透视投影进行扭曲，我们使用以下步骤来近似并生成区域得分和亲和力得分的基准值：1) 准备二维各向同性高斯图；2) 计算高斯图区域和每个字符框之间的透视变换；3) 将高斯图扭曲到框区域。
- 图 3. 我们框架中 GT 生成过程的说明。我们从具有字符级注释的合成图像中生成 GT 标签。
- 于character affinity score标签生成，从左边开始看，有了一个字符级的标注（红框， Character Boxes），这个字符的四个点（绿边）构成一个四边形，做对角线，构成两个三角形（蓝边），取三角形的中心，两个框之间就有四个点，构成了一个新的边框，这个边框就是用来表示两个字符之间的连接的label的（Affinity Boxes）。对于character region score标签生成，由于对box中的每个像素计算高斯分布值比较耗时，本文结合透视变换，采用了近似估计的方法来生成标签，具体步骤如下：a).准备一个二维的高斯图；b).计算高斯图区域和每个文字框的透视变换；c).将高斯图变换到文字框区域。
对于亲和度得分的基本事实，亲和度框使用相邻的字符框定义，如图 3 所示。通过绘制对角线连接每个字符框的对角，我们可以生成两个三角形 - 我们将其称为上字符三角形和下字符三角形。然后，对于每个相邻的字符框对，通过将上三角形和下三角形的中心设置为框的角来生成亲和度框。
尽管使用较小的接受场，但提出的标准真值定义使模型能够充分检测大型或较长的文本实例。另一方面，以前的方法（如框回归）在这种情况下需要较大的接受场。我们的字符级检测使卷积过滤器能够只关注字符内和字符间，而不是整个文本实例。

Weakly-Supervised Learning

与合成数据集不同，数据集中的真实图像通常具有单词级注释。在这里，我们以弱监督的方式从每个单词级注释生成字符框，如图 4 所示。当提供带有单词级注释的真实图像时，学习到的临时模型会预测裁剪后的单词图像的字符区域得分以生成字符级边界框。为了反映临时模型预测的可靠性，每个单词框的置信度图的值按检测到的字符数除以真实字符数的比例计算，该值用于训练期间的学习权重。
- 图 4. 所提方法的整体训练流程图。训练采用弱监督方式，使用真实图像和合成图像进行。
- 从图中可以看出，有三种颜色的线，最开始训练是蓝色的线条，其利用Synth80k数据集(合成数据，这些数据的标注是准确的）进行有监督的训练，使整个模型达到的效果后，进行弱监督训练。绿色线条代表是真实数据，这些数据的标注是文本行等级的，真实数据的训练分为以下几步：
  - 根据真实数据的标签，将文本行crop出来。
  - 跑网络，得到结果图。
  - 根据网络输出的图，分割出单个文字，得到字符的基本文字框。
  - 根据上一步的结果，生成label。
图 6 显示了字符分割的整个过程。首先，从原始图像中裁剪出单词级图像。其次，使用最新训练的模型预测区域得分。第三，使用分水岭算法分割字符区域，该算法用于制作覆盖区域的字符边界框。最后，使用裁剪步骤中的逆变换将字符框的坐标转换回原始图像坐标。可以使用获得的四边形字符级边界框通过图 3 中描述的步骤生成区域得分和亲和力得分的伪地面实况 (pseudoGT)。
当使用弱监督训练模型时，我们不得不使用不完整的伪 GT 进行训练。如果使用不准确的区域分数训练模型，则字符区域内的输出可能会模糊。为了防止这种情况，我们会测量模型生成的每个伪 GT 的质量。幸运的是，文本注释中有一个非常强大的提示，即单词长度。在大多数数据集中，都提供了单词的转录，可以使用单词的长度来评估伪 GT 的置信度。
对于训练数据中的一个带注释的单词级样本 w，令 R(w) 和 l(w) 分别为样本 w 的边界框区域和单词长度。通过字符分割过程，我们可以得到估计的字符边界框及其对应的字符长度 l c (w)。然后，样本 w 的置信度得分 sconf (w) 计算如下：
- $s_{conf} (w) = \frac{l(w) − min(l(w),|l(w) − l ^c (w)|)} {l(w)} ; (1)$
- 图像的像素级置信度图 Sc 计算如下：
- $S_c(p)\left\{\begin{matrix} s_{conf}(w)&p\in R(w) \\ 1& otherwise \end{matrix}\right.$
- 其中 p 表示区域 R(w) 中的像素。目标 L 定义为，
- $\sum_ p Sc(p)· (||S_r(p) − S ^∗_ r (p)||^2 _2 +||S_a(p) − S ^∗ _a (p)||^2 _2 ) ;$
- 其中 $S ^∗ _r (p)$ 和 $S ^∗ _a (p)$ 分别表示伪真实区域得分和亲和力图，Sr§ 和 Sa§ 分别表示预测区域得分和亲和力得分。当使用合成数据进行训练时，我们可以获得真实的真实情况，因此 Sc§ 设置为 1。
随着训练的进行，CRAFT 模型可以更准确地预测字符，置信度得分 sconf (w) 也逐渐增加。图 5 显示了训练期间的字符区域得分图。在训练的早期阶段，自然图像中不熟悉的文本的区域得分相对较低。该模型学习新文本的外观，例如不规则字体和与 SynthText 数据集具有不同数据分布的合成文本。
- 图 5.训练期间的字符区域分数图。
如果置信度得分 sconf (w) 低于 0.5，则应忽略估计的字符边界框，因为它们在训练模型时会产生不利影响。在这种情况下，我们假设单个字符的宽度是恒定的，并通过简单地将单词区域 R(w) 除以字符数 l(w) 来计算字符级预测。然后，将 sconf (w) 设置为 0:5 以学习文本中未见过的外观。
如何从文本框标注获得可靠的字符框标注是本文的最大亮点。CRAFT采用了弱监督学习的方法，有效的解决了这个问题。在训练初期，我们使用的训练集为合成的非真实图片，合成图片中具有字符框准确的标注信息，因而可以直接使用。合成图片与真实图片的数据特征有相似之处但又不完全相同，其可以为模型训练提供有限的帮助。当模型具有一定预测能力后，我们再开始使用真实图片。CRAFT在没有字符框标注的情况下，巧妙的利用弱监督学习的方法训练字符分割模型，在文本检测任务中达到了SOTA的准确率。另外，CRAFT还保持了良好的运算速度，并且可以检测汉字。在自然场景中汉字检测识别任务中，CRAFT比起Attention OCR中的Cascade Mask RCNN速度提升了一倍，极大的缩短了推断时间。当然，在使用CRAFT默认参数的测试中，它也存在少许的文本遗漏情况。

Inference

在推理阶段，最终输出可以呈现各种形状，例如单词框或字符框，以及进一步的多边形。对于像 ICDAR 这样的数据集，评估协议是单词级别的交并比 (IoU)，因此我们在这里描述如何通过简单而有效的后处理步骤从预测的 Sr 和 Sa 中制作单词级别的边界框 QuadBox。
查找边界框的后处理总结如下。首先，用 0 初始化覆盖图像的二值图 M。如果 Sr§ > τr 或 Sa§ > τa，则 M§ 设置为 1，其中 τr 是区域阈值，τa 是亲和力阈值。其次，对 M 执行连通分量标记 (CCL)。最后，通过查找具有最小面积的旋转矩形来获得 QuadBox，该矩形包围与每个标签相对应的连通分量。OpenCV 提供的 ConnectedComponents 和 minAreaRect 等函数可用于此目的。
请注意，CRAFT 的一个优点是它不需要任何进一步的后处理方法，例如非最大抑制 (NMS)。由于我们有由 CCL 分隔的单词区域图像块，因此单词的边界框仅由单个封闭矩形定义。另一方面，我们的字符链接过程是在像素级进行的，这与其他基于链接的方法不同，后者依赖于明确搜索文本组件之间的关系。
此外，我们可以在整个字符区域周围生成一个多边形，以有效处理弯曲的文本。多边形生成的过程如图 7 所示。第一步是沿扫描方向找到字符区域的局部最大值线，如图中蓝色箭头所示。局部最大值线的长度被设置为它们之间的最大长度，以防止最终的多边形结果变得不均匀。连接所有局部最大值中心点的线称为中心线，以黄色显示。然后，将局部最大值线旋转到垂直于中心线以反映字符的倾斜角度，如红色箭头所示。局部最大值线的端点是文本多边形控制点的候选。为了完全覆盖文本区域，我们将两个最外面倾斜的局部最大值线沿局部最大值中心线向外移动，形成最终的控制点（绿点）。
- 图 7. 任意形状文本的多边形生成。
正常文本后处理分为以下几步：
- 首先对0-1之间的概率图进行取阈值计算
- 使用Connected Component Labeling(CCL) 进行区域连接
- 最后使用opencv的MinAreaRect去框出最小的四边形区域
不规则文本检测后处理分为以下几步（如上图所示）：
- 先找到扫描方向的局部最大值（blue line）
- 连接所有the local maxima上的中心点叫做中心线
- 然后将the local maxima lines旋转至于中心线垂直
- the local maxima lines上的端点是文本控制点的候选点，为了能更好的覆盖文本，将文本最外端的两个控制点分别向外移动the local maxima lines的半径长度最为最终的控制点。

Experiment

Datasets

ICDAR2013（IC13）是在 ICDAR 2013 聚焦场景文本检测稳健阅读竞赛期间发布的，包含高分辨率图像，229 张用于训练，233 张用于测试，包含英文文本。注释是使用矩形框的单词级注释。
ICDAR2015 (IC15) 是在 ICDAR 2015 稳健阅读竞赛中推出的，用于偶然场景文本检测，包含 1000 张训练图像和 500 张测试图像，均带有英文文本。注释是使用四边形框的单词级别。
ICDAR2017 (IC17) 包含 7,200 张训练图像、1,800 张验证图像和 9,000 张测试图像，其中包含 9 种语言的文本，用于多语言场景文本检测。与 IC15 类似，IC17 中的文本区域也由四边形的 4 个顶点进行注释。
MSRA-TD500 (TD500) 包含 500 张自然图像，分为 300 张训练图像和 200 张测试图像，使用袖珍相机在室内和室外收集。图像包含英文和中文脚本。文本区域由旋转矩形标注。
TotalText（TotalText）最近在ICDAR 2017上发表，包含1255张训练图像和300张测试图像。它特别提供了曲线文本，这些文本通过多边形和单词级转录进行注释。
CTW-1500（CTW）由 1000 张训练图像和 500 张测试图像组成。每幅图像都有弯曲的文本实例，这些文本实例由具有 14 个顶点的多边形注释。

Training strategy

训练过程包括两个步骤：我们首先使用 SynthText 数据集对网络进行 50k 次迭代训练，然后采用每个基准数据集对模型进行微调。通过将 sconf (w) 设置为 0，在训练中忽略 ICDAR 2015 和 ICDAR 2017 数据集中的一些“DO NOT CARE”文本区域。我们在所有训练过程中都使用 ADAM 优化器。对于多 GPU 训练，训练和监督 GPU 是分开的，监督 GPU 生成的伪 GT 存储在内存中。 在微调过程中，SynthText 数据集也以 1:5 的比例使用，以确保字符区域确实分开。为了滤除自然场景中的纹理类文本，以 1:3 的比例应用在线硬负挖掘 。此外，还应用了裁剪、旋转和/或颜色变化等基本数据增强技术。
弱监督训练需要两种类型的数据：用于裁剪单词图像的四边形注释和用于计算单词长度的转录。满足这些条件的数据集是 IC13、IC15 和 IC17。其他数据集（如 MSRA-TD500、TotalText 和 CTW-1500）不符合要求。MSRA-TD500 不提供转录，而 TotalText 和 CTW-1500 仅提供多边形注释。因此，我们仅在 ICDAR 数据集上训练 CRAFT，并在其他数据集上进行测试而不进行微调。使用 ICDAR 数据集训练了两个不同的模型。第一个模型在 IC15 上训练，仅评估 IC15。第二个模型在 IC13 和 IC17 上一起训练，用于评估其他五个数据集。训练时不使用额外的图像。微调的迭代次数设置为 25k。

Experimental Results

四边形数据集（ICDAR 和 MSRATD500）所有实验均采用单一图像分辨率进行。IC13、IC15、IC17 和 MSRA-TD500 中图像的长边分别调整为 960、2240、2560 和 1600。表 1 列出了各种方法在 ICDAR 和 MSRA-TD500 数据集上的 h 均值得分。为了与端到端方法进行公平比较，我们参考原始论文包含了它们的仅检测结果。我们在所有数据集上都实现了最先进的性能。此外，由于简单而有效的后处理，CRAFT 在 IC13 数据集上的运行速度为 8.6 FPS，速度相对较快。
- 表 1. 四边形数据集（如 ICDAR 和 MSRA-TD500）上的结果。∗ 表示基于多尺度测试的结果。斜体方法仅为端到端模型检测的结果，以便进行公平比较。R、P 和 H 分别表示召回率、准确率和 H 均值。最佳分数以粗体突出显示。由于实验环境不同，FPS 仅供参考。我们报告了最佳 FPS，每个 FPS 均在原始论文中报告过。

| 在这里插入图片描述

图 8. TotalText 数据集上的结果。第一行：每列显示输入图像（顶部）及其各自的区域得分图（左下）和亲和力图（右下）。第二行：每列仅显示输入图像（左）及其区域得分图（右）。
对于 MSRA-TD500，注释以行级提供，包括框中单词之间的空格。因此，应用了合并单词框的后处理步骤。如果一个框的右侧和另一个框的左侧足够接近，则将两个框合并在一起。即使未对 TD500 训练集进行微调，CRAFT 的表现也优于所有其他方法，如表 1 所示。
多边形类型数据集（TotalText、CTW-1500）直接在 TotalText 和 CTW1500 上训练模型具有挑战性，因为它们的注释是多边形形状，这使得在弱监督训练期间裁剪文本区域以分割字符框变得复杂。因此，我们仅使用来自 IC13 和 IC17 的训练图像，并且没有进行微调来学习这些数据集提供的训练图像。在推理步骤中，我们使用来自区域分数的多边形生成后处理来处理提供的多边形类型注释。
这些数据集的实验也是在单一图像分辨率下进行的。TotalText 和 CTW-1500 中图像的长边分别调整为 1280 和 1024。多边形数据集的实验结果如表 2 所示。与其他方法相比，CRAFT 的单字符定位能力使我们能够在检测任意形状的文本方面实现更稳健和更优异的性能。特别是，TotalText 数据集具有各种变形，包括如图 8 所示的弯曲文本，而基于四边形的文本检测器无法对其进行充分推理。因此，在这些数据集上可以评估的方法数量非常有限。
- 表 2. 多边形类型数据集（例如 TotalText 和 CTW-1500）上的结果。R、P 和 H 分别表示召回率、准确率和 H 均值。最佳得分以粗体突出显示。
在 CTW-1500 数据集的情况下，两个困难的特征共存，即在行级提供的注释和任意多边形。为了在这种情况下帮助 CRAFT，一个小型链接细化网络（我们称之为 LinkRefiner）与 CRAFT 结合使用。LinkRefiner 的输入是区域得分、亲和力得分和 CRAFT 的中间特征图的串联，输出是针对长文本调整的细化亲和力得分。为了组合字符，使用细化亲和力得分代替原始亲和力得分，然后以与 TotalText 相同的方式执行多边形生成。在冻结 CRAFT 的同时，只在 CTW-1500 数据集上训练 LinkRefiner。LinkRefiner 的详细实现在补充材料中介绍。如表 2 所示，所提出的方法实现了最先进的性能。

Discussions

对尺度方差的鲁棒性尽管文本的大小差异很大，但我们仅对所有数据集进行了单尺度实验。这不同于大多数其他方法，它们依赖多尺度测试来处理尺度方差问题。这一优势来自于我们的方法定位单个字符而不是整个文本的特性。相对较小的感受野足以覆盖大图像中的单个字符，这使得 CRAFT 在检测尺度变化文本方面具有鲁棒性。
多语言问题 IC17 数据集包含孟加拉语和阿拉伯语字符，这些字符未包含在合成文本数据集中。此外，这两种语言都很难单独分割成字符，因为每个字符都是草书。因此，我们的模型无法像区分拉丁语、韩语、中文和日语那样区分孟加拉语和阿拉伯语字符。在东亚字符的情况下，它们可以很容易地以恒定的宽度分开，这有助于通过弱监督将模型训练到高性能。
与端到端方法的比较我们的方法仅使用 GT 框进行检测训练，但它与其他端到端方法相当，如表 3 所示。从失败案例的分析中，我们预计我们的模型能够从识别结果中受益，尤其是当 GT 词由语义而不是视觉提示分隔时。
- 表 3. H-mean 与端到端方法的比较。我们的方法不是以端到端的方式进行训练的，但显示出相当的结果，甚至优于流行的方法。
泛化能力我们的方法在 3 个不同的数据集上取得了最佳表现，无需额外微调。这表明我们的模型能够捕捉文本的一般特征，而不是过度拟合特定数据集。

Conclusion

我们提出了一种名为 CRAFT 的新型文本检测器，即使没有给出字符级注释，它也可以检测单个字符。所提出的方法提供了字符区域得分和字符亲和力得分，它们一起以自下而上的方式完全覆盖各种文本形状。由于提供字符级注释的真实数据集很少见，我们提出了一种弱监督学习方法，该方法从临时模型生成伪 GT。CRAFT 在大多数公共数据集上表现出最佳性能，并通过在无需微调的情况下展示这些性能来展示泛化能力。作为我们未来的工作，我们希望以端到端的方式使用识别模型训练我们的模型，以查看 CRAFT 的性能、稳健性和泛化性是否可以转化为更好的场景文本识别系统，该系统可以应用于更一般的设置。

LinkRefiner for CTW-1500 dataset

CTW-1500 数据集仅提供多边形注释，不提供文本转录。此外，CTW-1500 的注释是在行级别提供的，不将空格视为分离线索。这与我们的亲和性假设相差甚远，即字符之间有空格时，亲和性得分为零。
为了从检测到的字符中获得单长多边形，我们使用了一个浅层网络进行链接细化，即 LinkRefiner。LinkRefiner 的架构如图 9 所示。LinkRefiner 的输入是区域得分、亲和力得分和来自网络的中间特征图的串联，这是原始 CRAFT 模型第 4 阶段的输出。采用 带孔空间金字塔池 (ASPP) 来确保较大的感受野，以便将远距离字符和单词组合到同一文本行上。
- 图 9.LinkRefiner 架构示意图。
对于 LinkRefiner 的真值，只需在注释多边形的成对控制点的中心之间画线，这类似于 [Accurate text localization in natural image with cascaded convolutional text network] 中使用的文本线生成。每条线的宽度与成对控制点之间的距离成正比。LinkRefiner 的真值生成如图 10 所示。该模型的输出称为链接分数。对于训练，仅在 CTW-1500 训练数据集上训练 LinkRefiner，同时冻结 CRAFT。
- 图 10.LinkRefiner 的真实值生成。
训练后，我们得到了模型的输出，即区域得分、亲和力得分和链接得分。这里使用链接得分代替原始亲和力得分，并且文本多边形完全通过与 TotalText 相同的过程获得。CRAFT 模型定位单个字符，LinkRefiner 模型将字符以及用空格分隔的单词组合在一起，这是 CTW1500 评估所需的。
CTW-1500 数据集上的结果如图 11 所示。所提出的方法成功检测到了非常具有挑战性的长文本和弯曲文本图像样本。此外，利用我们的多边形表示，可以将弯曲图像校正为直文本图像，如图 11 所示。我们相信这种校正能力可以进一步用于识别任务。
- 图 11. CTW-1500 数据集上的结果。对于每个集群：显示输入图像（顶部）、区域得分（中间左侧）、链接得分（中间右侧）以及弯曲文本的校正多边形（底部，箭头下方）。请注意，亲和力得分未呈现，并且在 CTW-1500 数据集中未使用。