Character Region Awareness for Text Detection 论文解读

最新推荐文章于 2024-06-11 16:13:24 发布

Yuki.Lemon

最新推荐文章于 2024-06-11 16:13:24 发布

阅读量488

点赞数 1

分类专栏：场景文本检测

本文链接：https://blog.csdn.net/Diliduluw/article/details/102998958

版权

场景文本检测专栏收录该内容

4 篇文章 0 订阅

订阅专栏

字符+字符间的联系+弱监督

解决长的/弯曲的/任意形状的文本

提出单词（word）级别的标注缺少语义信息高斯分布的概率图（文本边界不需要严格定义了）+弱监督训练方式

【摘要+介绍】：

word level的bbox在表达任意形状的文本时有限制，原因是：
- word level的bbox在遇到弯曲/变形的/特别长的文本时，很难准确的包围文本框
- 因此，一个可供选择的方式是检测character level的字符，通过连接连续的字符，进行自底向上的文本检测。（然而，当前有字符级标注的数据集太少了，需要很多的人工花费）
- 为此，本文的做法：
  - 1.设计CNN来产生字符区域的score（region score ）以及字符之间的关联score（affinity score）
  - 2.提出一个弱监督框架，能够从现有的单词级别数据集估计出字符集别的标注（主要为了解决字符级数据集少的缺陷）

【相关工作】：

基于回归的/基于检测的
- 大部分方法都是把单词当作一个单元去检测，但是分割word的准则有很多种，比如意义/空间/颜色等
- 而且，单词之间的分割界限也没有被严格的定义
- 这样一来，单词级别的标注也就缺少了独特的语义信息，所以单词级别模棱两可的标注也就降低了单词级别标注的意义。
基于字符的
- MSER证实了字符级标注在某些情况下会限制检测的鲁棒性（如：对于一些低对比度/灯光反射的场景来说）
- Seglink预测字符或单词片段以及它们之间的连接，最后通过连接这些片段得到检测结果
本文是基于wordsup的弱监督字符级检测器
- wordsup的缺点在于它的字符级标注是矩形的anchor，因此，当相机的拍摄角度等原因引起透视畸变时，矩形框并不能很好的描述该字符
- 同时用了合成数据集（有准确的字符级标注）以及从单词级标注的数据集评估得到的字符级标注数据集（字符级标注不一定准确）

【方法】

①首先在合成数据集上（有准确的字符级标注）训练一个model，该model预测字符区域（character region score）以及字符之间的联系（affinity score），特征提取网络采用VGG16+UNet
- 1）character region score代表该像素位于字符中心的概率，而affinity score代表该像素位于相邻字符中间的概率。
- 2）字符区域以及字符间联系的label，不是二值map，而是服从高斯分布的概率map（Figure3.），高斯map经过变形后，产生对应的character region以及affinity 的label （这样做是为了解决透视畸变问题，对于有深度的文本，这样的标注更加准确）
②其次是弱监督训练。因为大部分word level数据集缺少字符级标注，所以拿之前在合成数据集上训练好的模型来生成字符级标注。
- 1）输入word level图片，将word level文本区域剪切下来
- 2）拿之前训好的模型，预测word level文本的character region score （同样是服从高斯分布的score）
- 3）采用watershed算法来分离字符区域，也就是得到字符级别的bounding box
- 4）将字符级别bounding box的坐标映射回原图（因为1-3步用的都是从原图抠下来的文本，所以还要映射回去）
- 5）得到了字符级别的bounding box，也就能像合成数据集的字符标注一样，去计算character region score以及affinity score的高斯标注map了。但因为是由训练的model估计出来的ground truth，所以这部分ground truth作者把它称为pseudo-GTs（即：伪标注）
③将合成数据集的准确字符标注、真实数据级的字符伪标注一起训练模型。
- 标注的可信度，作者也提出了一个评价机制
- 对于合成数据集本来就拥有的准确字符标注，置信度为1
- 对于真实数据集，作者拿模型跑出来的ground truth，会根据字符宽度、单词宽度产生置信度
- 对应的数据集置信度，最后会乘到模型的loss上面，使得loss也具有了置信度。
④推理阶段/后处理：寻找最小外接矩形即可

【实验】

①本文的方法对于尺度的鲁棒性好，因为只需要字符级别的感受野即可，所以无论多长的文本，网络只要关注character region就好，不需要关注整个文本行了，所以对于尺寸的鲁棒性好
②语种方面：因为本文是基于字符进行检测的，所以对于拉丁文、中文、日韩文这样的单个字符比较明显的语种来说，效果好。而对于孟加拉语、阿拉伯语这样字符不太明显而且书写方式较为潦草的语种效果不好
③作者今后希望把文本识别引入自己的模型中来，因为用于识别的单词，在识别过程中就具有了语义信息，相比于一些视觉线索（颜色、空间等）来划分单词，这样的语义信息对于划分、检测单词更有用。
④模型的泛化性能强。