Character Region Awareness for Text Detection 论文解读

字符+字符间的联系+弱监督

解决长的/弯曲的/任意形状的文本

提出单词(word)级别的标注缺少语义信息  高斯分布的概率图(文本边界不需要严格定义了)+弱监督训练方式

【摘要+介绍】:

  • word level的bbox在表达任意形状的文本时有限制,原因是:

    • word level的bbox在遇到弯曲/变形的/特别长的文本时,很难准确的包围文本框

    • 因此,一个可供选择的方式是检测character level的字符,通过连接连续的字符,进行自底向上的文本检测。(然而,当前有字符级标注的数据集太少了,需要很多的人工花费)

    • 为此,本文的做法:

      • 1.设计CNN来产生字符区域的score(region score )以及字符之间的关联score(affinity score)

      • 2.提出一个弱监督框架,能够从现有的单词级别数据集估计出字符集别的标注(主要为了解决字符级数据集少的缺陷)

【相关工作】:

  • 基于回归的/基于检测的

    • 大部分方法都是把单词当作一个单元去检测,但是分割word的准则有很多种,比如意义/空间/颜色等

    • 而且,单词之间的分割界限也没有被严格的定义

    • 这样一来,单词级别的标注也就缺少了独特的语义信息,所以单词级别模棱两可的标注也就降低了单词级别标注的意义。

  • 基于字符的

    • MSER证实了字符级标注在某些情况下会限制检测的鲁棒性(如:对于一些低对比度/灯光反射的场景来说)

    • Seglink预测字符或单词片段以及它们之间的连接,最后通过连接这些片段得到检测结果

  • 本文是基于wordsup的弱监督字符级检测器

    • wordsup的缺点在于它的字符级标注是矩形的anchor,因此,当相机的拍摄角度等原因引起透视畸变时,矩形框并不能很好的描述该字符

    • 同时用了合成数据集(有准确的字符级标注)以及从单词级标注的数据集评估得到的字符级标注数据集(字符级标注不一定准确)

 

【方法】

  • ①首先在合成数据集上(有准确的字符级标注)训练一个model,该model预测字符区域(character region score)以及字符之间的联系(affinity score),特征提取网络采用VGG16+UNet

    • 1)character region score代表该像素位于字符中心的概率,而affinity score代表该像素位于相邻字符中间的概率。

    • 2)字符区域以及字符间联系的label,不是二值map,而是服从高斯分布的概率map(Figure3.),高斯map经过变形后,产生对应的character region以及affinity 的label (这样做是为了解决透视畸变问题,对于有深度的文本,这样的标注更加准确)

  • ②其次是弱监督训练。因为大部分word level数据集缺少字符级标注,所以拿之前在合成数据集上训练好的模型来生成字符级标注。

    • 1)输入word level图片,将word level文本区域剪切下来

    • 2)拿之前训好的模型,预测word level文本的character region score (同样是服从高斯分布的score)

    • 3)采用watershed算法来分离字符区域,也就是得到字符级别的bounding box

    • 4)将字符级别bounding box的坐标映射回原图(因为1-3步用的都是从原图抠下来的文本,所以还要映射回去)

    • 5)得到了字符级别的bounding box,也就能像合成数据集的字符标注一样,去计算character region score以及affinity score的高斯标注map了。但因为是由训练的model估计出来的ground truth,所以这部分ground truth作者把它称为pseudo-GTs(即:伪标注)

  • ③将合成数据集的准确字符标注、真实数据级的字符伪标注一起训练模型。

    • 标注的可信度,作者也提出了一个评价机制

    • 对于合成数据集本来就拥有的准确字符标注,置信度为1

    • 对于真实数据集,作者拿模型跑出来的ground truth,会根据字符宽度、单词宽度产生置信度

    • 对应的数据集置信度,最后会乘到模型的loss上面,使得loss也具有了置信度。

  • ④推理阶段/后处理:寻找最小外接矩形即可

【实验】

  • ①本文的方法对于尺度的鲁棒性好,因为只需要字符级别的感受野即可,所以无论多长的文本,网络只要关注character region就好,不需要关注整个文本行了,所以对于尺寸的鲁棒性好

  • ②语种方面:因为本文是基于字符进行检测的,所以对于拉丁文、中文、日韩文这样的单个字符比较明显的语种来说,效果好。而对于孟加拉语、阿拉伯语这样字符不太明显而且书写方式较为潦草的语种效果不好

  • ③作者今后希望把文本识别引入自己的模型中来,因为用于识别的单词,在识别过程中就具有了语义信息,相比于一些视觉线索(颜色、空间等)来划分单词,这样的语义信息对于划分、检测单词更有用。

  • ④模型的泛化性能强。

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值