字符+字符间的联系+弱监督
解决长的/弯曲的/任意形状的文本
提出单词(word)级别的标注缺少语义信息 高斯分布的概率图(文本边界不需要严格定义了)+弱监督训练方式
【摘要+介绍】:
-
word level的bbox在表达任意形状的文本时有限制,原因是:
-
word level的bbox在遇到弯曲/变形的/特别长的文本时,很难准确的包围文本框
-
因此,一个可供选择的方式是检测character level的字符,通过连接连续的字符,进行自底向上的文本检测。(然而,当前有字符级标注的数据集太少了,需要很多的人工花费)
-
为此,本文的做法:
-
1.设计CNN来产生字符区域的score(region score )以及字符之间的关联score(affinity score)
-
2.提出一个弱监督框架,能够从现有的单词级别数据集估计出字符集别的标注(主要为了解决字符级数据集少的缺陷)
-
-
【相关工作】:
-
基于回归的/基于检测的
-
大部分方法都是把单词当作一个单元去检测,但是分割word的准则有很多种,比如意义/空间/颜色等
-
而且,单词之间的分割界限也没有被严格的定义
-
这样一来,单词级别的标注也就缺少了独特的语义信息,所以单词级别模棱两可的标注也就降低了单词级别标注的意义。
-
-
基于字符的
-
MSER证实了字符级标注在某些情况下会限制检测的鲁棒性(如:对于一些低对比度/灯光反射的场景来说)
-
Seglink预测字符或单词片段以及它们之间的连接,最后通过连接这些片段得到检测结果
-
-
本文是基于wordsup的弱监督字符级检测器
-
wordsup的缺点在于它的字符级标注是矩形的anchor,因此,当相机的拍摄角度等原因引起透视畸变时,矩形框并不能很好的描述该字符
-
同时用了合成数据集(有准确的字符级标注)以及从单词级标注的数据集评估得到的字符级标注数据集(字符级标注不一定准确)
-
【方法】
-
①首先在合成数据集上(有准确的字符级标注)训练一个model,该model预测字符区域(character region score)以及字符之间的联系(affinity score),特征提取网络采用VGG16+UNet
-
1)character region score代表该像素位于字符中心的概率,而affinity score代表该像素位于相邻字符中间的概率。
-
2)字符区域以及字符间联系的label,不是二值map,而是服从高斯分布的概率map(Figure3.),高斯map经过变形后,产生对应的character region以及affinity 的label (这样做是为了解决透视畸变问题,对于有深度的文本,这样的标注更加准确)
-
-
②其次是弱监督训练。因为大部分word level数据集缺少字符级标注,所以拿之前在合成数据集上训练好的模型来生成字符级标注。
-
1)输入word level图片,将word level文本区域剪切下来
-
2)拿之前训好的模型,预测word level文本的character region score (同样是服从高斯分布的score)
-
3)采用watershed算法来分离字符区域,也就是得到字符级别的bounding box
-
4)将字符级别bounding box的坐标映射回原图(因为1-3步用的都是从原图抠下来的文本,所以还要映射回去)
-
5)得到了字符级别的bounding box,也就能像合成数据集的字符标注一样,去计算character region score以及affinity score的高斯标注map了。但因为是由训练的model估计出来的ground truth,所以这部分ground truth作者把它称为pseudo-GTs(即:伪标注)
-
-
③将合成数据集的准确字符标注、真实数据级的字符伪标注一起训练模型。
-
标注的可信度,作者也提出了一个评价机制
-
对于合成数据集本来就拥有的准确字符标注,置信度为1
-
对于真实数据集,作者拿模型跑出来的ground truth,会根据字符宽度、单词宽度产生置信度
-
对应的数据集置信度,最后会乘到模型的loss上面,使得loss也具有了置信度。
-
-
④推理阶段/后处理:寻找最小外接矩形即可
【实验】
-
①本文的方法对于尺度的鲁棒性好,因为只需要字符级别的感受野即可,所以无论多长的文本,网络只要关注character region就好,不需要关注整个文本行了,所以对于尺寸的鲁棒性好
-
②语种方面:因为本文是基于字符进行检测的,所以对于拉丁文、中文、日韩文这样的单个字符比较明显的语种来说,效果好。而对于孟加拉语、阿拉伯语这样字符不太明显而且书写方式较为潦草的语种效果不好
-
③作者今后希望把文本识别引入自己的模型中来,因为用于识别的单词,在识别过程中就具有了语义信息,相比于一些视觉线索(颜色、空间等)来划分单词,这样的语义信息对于划分、检测单词更有用。
-
④模型的泛化性能强。