Character Region Awareness for Text Detection 论文解读

字符+字符间的联系+弱监督

解决长的/弯曲的/任意形状的文本

提出单词(word)级别的标注缺少语义信息  高斯分布的概率图(文本边界不需要严格定义了)+弱监督训练方式

【摘要+介绍】:

  • word level的bbox在表达任意形状的文本时有限制,原因是:

    • word level的bbox在遇到弯曲/变形的/特别长的文本时,很难准确的包围文本框

    • 因此,一个可供选择的方式是检测character level的字符,通过连接连续的字符,进行自底向上的文本检测。(然而,当前有字符级标注的数据集太少了,需要很多的人工花费)

    • 为此,本文的做法:

      • 1.设计CNN来产生字符区域的score(region score )以及字符之间的关联score(affinity score)

      • 2.提出一个弱监督框架,能够从现有的单词级别数据集估计出字符集别的标注(主要为了解决字符级数据集少的缺陷)

【相关工作】:

  • 基于回归的/基于检测的

    • 大部分方法都是把单词当作一个单元去检测,但是分割word的准则有很多种,比如意义/空间/颜色等

    • 而且,单词之间的分割界限也没有被严格的定义

    • 这样一来,单词级别的标注也就缺少了独特的语义信息,所以单词级别模棱两可的标注也就降低了单词级别标注的意义。

  • 基于字符的

    • MSER证实了字符级标注在某些情况下会限制检测的鲁棒性(如:对于一些低对比度/灯光反射的场景来说)

    • Seglink预测字符或单词片段以及它们之间的连接,最后通过连接这些片段得到检测结果

  • 本文是基于wordsup的弱监督字符级检测器

    • wordsup的缺点在于它的字符级标注是矩形的anchor,因此,当相机的拍摄角度等原因引起透视畸变时,矩形框并不能很好的描述该字符

    • 同时用了合成数据集(有准确的字符级标注)以及从单词级标注的数据集评估得到的字符级标注数据集(字符级标注不一定准确)

 

【方法】

  • ①首先在合成数据集上(有准确的字符级标注)训练一个model,该model预测字符区域(character region score)以及字符之间的联系(affinity score),特征提取网络采用VGG16+UNet

    • 1)character region score代表该像素位于字符中心的概率,而affinity score代表该像素位于相邻字符中间的概率。

    • 2)字符区域以及字符间联系的label,不是二值map,而是服从高斯分布的概率map(Figure3.),高斯map经过变形后,产生对应的character region以及affinity 的label (这样做是为了解决透视畸变问题,对于有深度的文本,这样的标注更加准确)

  • ②其次是弱监督训练。因为大部分word level数据集缺少字符级标注,所以拿之前在合成数据集上训练好的模型来生成字符级标注。

    • 1)输入word level图片,将word level文本区域剪切下来

    • 2)拿之前训好的模型,预测word level文本的character region score (同样是服从高斯分布的score)

    • 3)采用watershed算法来分离字符区域,也就是得到字符级别的bounding box

    • 4)将字符级别bounding box的坐标映射回原图(因为1-3步用的都是从原图抠下来的文本,所以还要映射回去)

    • 5)得到了字符级别的bounding box,也就能像合成数据集的字符标注一样,去计算character region score以及affinity score的高斯标注map了。但因为是由训练的model估计出来的ground truth,所以这部分ground truth作者把它称为pseudo-GTs(即:伪标注)

  • ③将合成数据集的准确字符标注、真实数据级的字符伪标注一起训练模型。

    • 标注的可信度,作者也提出了一个评价机制

    • 对于合成数据集本来就拥有的准确字符标注,置信度为1

    • 对于真实数据集,作者拿模型跑出来的ground truth,会根据字符宽度、单词宽度产生置信度

    • 对应的数据集置信度,最后会乘到模型的loss上面,使得loss也具有了置信度。

  • ④推理阶段/后处理:寻找最小外接矩形即可

【实验】

  • ①本文的方法对于尺度的鲁棒性好,因为只需要字符级别的感受野即可,所以无论多长的文本,网络只要关注character region就好,不需要关注整个文本行了,所以对于尺寸的鲁棒性好

  • ②语种方面:因为本文是基于字符进行检测的,所以对于拉丁文、中文、日韩文这样的单个字符比较明显的语种来说,效果好。而对于孟加拉语、阿拉伯语这样字符不太明显而且书写方式较为潦草的语种效果不好

  • ③作者今后希望把文本识别引入自己的模型中来,因为用于识别的单词,在识别过程中就具有了语义信息,相比于一些视觉线索(颜色、空间等)来划分单词,这样的语义信息对于划分、检测单词更有用。

  • ④模型的泛化性能强。

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

### 回答1: 网络位置感知(Network Location Awareness)是指计算机系统能够自动识别当前所处的网络环境,并根据不同的网络环境自动调整网络设置和策略,以保证网络连接的稳定性和安全性。网络位置感知技术可以帮助计算机系统自动切换网络连接,优化网络带宽利用,提高网络性能和用户体验。 ### 回答2: 网络位置感知(Network Location Awareness)是一种技术,可以帮助计算机系统自动识别、判断和切换网络连接的位置。在计算机系统使用多种不同的网络连接方式的情况下,网络位置感知可以通过检测计算机所连接的网络环境来调整系统设置,以便实现最佳的网络连接体验。 网络位置感知的主要功能之一是根据当前连接的网络环境自动调整网络设置,例如IP地址、DNS服务器、代理服务器等。当计算机从一个网络环境转移到另一个网络环境时,网络位置感知可以自动检测到这种变化,并调整相应的网络设置,以确保计算机可以顺利连接到新的网络。 此外,网络位置感知还可根据网络环境的安全性和可靠性自动调整计算机的安全设置。例如,当计算机连接到一个公共无线网络时,网络位置感知可以自动将系统的防火墙和安全策略设置为更加严格的模式,以保护计算机免受潜在的网络攻击。而当计算机连接到一个受信任的私人网络时,网络位置感知可以调整系统的安全设置为较为宽松的模式,以便提高用户的网络体验。 总之,网络位置感知是一项重要的技术,可以使计算机系统更智能地适应不同的网络连接环境,从而提供更好的用户体验和网络安全保护。通过实时识别和切换网络连接位置,它能够帮助用户更加轻松、高效地使用计算机,并确保与网络的稳定连接和数据传输。 ### 回答3: 网络位置感知(Network Location Awareness,NLA)是指计算机系统能够感知和识别其所处的网络位置环境的能力。 网络位置感知是为了让计算机系统能够根据不同的网络环境来进行相应的网络设置和优化。通过网络位置感知,计算机系统可以自动判断当前所连接的网络是家庭网络、公司网络还是公共无线网络,从而自动调整相关的网络设置,以提供最佳的网络性能和安全性。 网络位置感知可以通过多种方式来判断网络的位置环境,包括IP地址的范围、网络名称、网络速度和安全策略等。当计算机连接到一个新的网络时,网络位置感知会自动识别这个网络的位置环境,并根据预先设置的规则和策略进行相应的调整。 例如,当计算机连接到一个公共无线网络时,网络位置感知可以自动将防火墙设置为更加严格的模式,以保护计算机免受潜在的网络攻击和威胁;当计算机连接到公司网络时,网络位置感知可以自动更新网络代理设置和域名服务器设置,以便计算机能够正常访问公司的内部资源。 总之,网络位置感知是一种非常实用的功能,它可以根据不同的网络环境自动进行网络设置,提供更好的网络性能和安全性。它可以帮助用户节省时间和精力,使得计算机系统在不同网络环境下都能够得到最佳的网络体验。
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值