Mask TextSpotter v3

摘要

近年来,集检测和识别为一体的端到端可训练场景文本检测方法取得了很大进展。然而,目前的任意形状场景文本观察器大多使用区域提案网络(RPN)来生成提案。RPN在很大程度上依赖于手动设计的锚,其提案用轴对齐的矩形表示。前者在处理具有极端纵横比或不规则形状的文本实例方面存在困难,而后者通常在密集定向文本的情况下将多个相邻实例包括在单个建议中。为了解决这些问题,我们提出了MASK TextSpotter v3,一个端到端的可训练场景文本检测器,它采用了分割建议网络(SPN)而不是RPN。我们的SPN是无锚点的,并给出了任意形状提案的准确表示。因此,它在检测极端纵横比或不规则形状的文本实例方面优于RPN。此外,SPN生成的准确建议允许使用屏蔽ROI特征来分离相邻文本实例。因此,我们的MASK TextSpotter v3可以处理长宽比极高或形状不规则的文本实例,其识别精度不会受到附近文本或背景噪音的影响。具体地说,我们在旋转的ICDAR 2013数据集上的性能比最先进的方法高21.9%(旋转健壮性),在全文本数据集上的性能高出5.9%(形状健壮性),在MSRA-TD500数据集上达到最先进的性能(纵横比健壮性)。

引言

RPN的局限性主要体现在两个方面:(1)人工预先设计的锚点是使用轴向对齐的矩形定义的,不能很容易地匹配极端纵横比的文本实例。(2)当文本实例被密集定位时,所生成的轴对齐的矩形建议可以包含多个相邻的文本实例。如图1所示,MASK TextSpotter v2[21]产生的建议彼此重叠,因此其ROI特征包括多个相邻文本实例,导致检测和识别错误。

在本文中,我们提出了一种分割建议网络(SPN),旨在解决基于RPN的方法的局限性。我们的SPN是无锚点的,并给出了提案的准确多边形表示。SPN不受预先设计的锚点的限制,可以处理长宽比极高或形状不规则的文本实例。然后,通过将我们提出的硬ROI掩蔽应用到ROI特征中,可以抑制相邻文本实例或背景噪声,从而充分利用其准确的建议。这在密集定向或形状不规则的文本的情况下是有益的,如图1所示。因此,通过将SPN引入到掩码TextSpotter v2中,提出了掩码文本聚焦v3。

方法

 Mask TextSpotter v3结构

MASK TextSpotter v3由ResNet-50[12]主干、用于提案生成的分割提案网络(SPN)、用于提炼提案的Fast R-CNN模块[8]、用于准确检测的文本实例分割模块、用于识别的字符分割模块和空间注意模块组成。

SPN

SPN采用U-Net结构,从分割掩膜中产生候选建议,SPN是从融合特征图F中进行预测的,融合特征图F包含了各种感受野的特征图,F的尺寸为\frac{H}{4} \times \frac{W}{4},预测文本分割图S的大小为1×H×W,其值在[0,1]的范围内。

分割标签生成

为了分离相邻文本实例,基于分段的场景文本检测器通常收缩文本区域[49,42]。灵感来自王等人[42]和DB[24],我们采用Vatti裁剪算法[39]通过裁剪d个像素来缩小文本区域。可以将偏移像素d设定为d=A\left(1-r^{2}\right) / L,A表示区域,L表示文本区域周长。r表示收缩比。

提议生成

给定值在[0,1]范围内的文本切分映射S,我们首先将S二进制化成二值B:

B_{i, j}= \begin{cases}1 & \text { if } S_{i, j}>=t \\ 0 & \text { otherwise }\end{cases}

这里,i和j是分段或二进制映射的索引,并且t被设置为0.5。请注意,B的大小与S和输入图像相同。

 然后,我们将二值图B中的连通区域分组。由于如上所述,文本分割标签被缩小,因此这些连通区域可以被认为是缩小的文本区域。因此,我们使用Vatti裁剪算法通过取消裁剪dˆ像素来扩展它们,其中dˆ被计算为\hat{d}=\hat{A} \times \hat{r} / \hat{L}。这里,Aˆ和ˆL是预测缩小的文本区域的面积和周长。根据收缩比r的值,rˆ设置为3.0.。如上所述,SPN产生的建议可以准确地表示为多边形,即文本区域的轮廓。因此,SPN为具有极端长宽比和密集定向/不规则形状的文本实例的文本行生成合适的建议。

硬ROI掩蔽

       由于自定义ROI Align操作符仅支持轴对齐的矩形边界框,因此我们使用多边形提案的最小、轴对齐的矩形边界框来生成ROI特征,以使ROI Align操作符保持简单。
        秦等人。[34]提出了一种将掩码概率图与感兴趣区域特征相乘的ROI掩蔽方法,其中掩码概率图由mask R-CNN检测模块生成。然而,掩码概率图可能是不准确的,因为它们是由RPN的建议预测的。例如, 它可以包含密集定向文本的多个相邻文本实例。在我们的例子中,精确的多边形表示是为建议设计的,因此我们可以通过我们提出的硬ROI掩蔽将建议直接应用到ROI特征上。

        硬ROI掩码将二进制多边形掩码与ROI特征相乘,以抑制背景噪声或相邻文本实例,其中,多边形掩码M指示具有在多边形区中的全部1值和在多边形区之外的全部0值的轴对齐的矩形二进制图。假设R0是ROI特征,M是大小为32×32的多边形掩码,则掩码ROI特征R可以计算为R=R0∗M,其中∗表示逐元素相乘。通过用1填充多边形建议区域,同时将多边形外部的值设置为0,可以容易地生成M。我们报道了一项在SEC中对硬ROI掩蔽的消融研究。4.7,其中我们将所提出的硬ROI掩蔽与包括Qin等人的ROI掩蔽在内的其他算子进行了比较。[34][中英文对照]。
        在应用硬ROI掩蔽后,掩蔽后的ROI特征中背景区域或相邻文本实例被抑制,大大降低了检测和识别模块的难度和错误。

实验

 

  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
### 回答1: masktextspotterv3是一个用于文本识别和检测的模型。它基于深度学习技术,能够自动识别图像中的文字,并且可以检测文字所在的位置。与其他文本识别模型不同的是,masktextspotterv3能够检测和识别旋转、弯曲、倾斜等复杂形状的文本,具有很高的识别精度和鲁棒性。该模型已经在很多场景下得到了广泛的应用,例如自动驾驶、智能门禁、文档识别等领域。 是的,你说得对。masktextspotterv3是一个基于深度学习技术的文本识别和检测模型,能够自动识别图像中的文字,并且可以检测文字所在的位置。它的特点是能够检测和识别旋转、弯曲、倾斜等复杂形状的文本,具有很高的识别精度和鲁棒性。该模型已经在很多场景下得到了广泛的应用,包括自动驾驶、智能门禁、文档识别等领域。Mask TextSpotter v3 是一个针对场景文本检测和识别的深度学习模型。它采用了 Mask R-CNN 和 CRNN 两个网络结构,能够在复杂的背景下精确地检测和识别场景文本。 Mask TextSpotter v3 的主要特点包括: 1. 支持多语言,能够识别包括中文在内的多种语言。 2. 能够在低分辨率、低对比度等极端条件下仍能准确检测和识别文本。 3. 采用双向 GRU 网络结构,对文本进行识别和校正,提高了识别准确率。 4. 可以处理不同尺寸和方向的文本。 在实际应用中,Mask TextSpotter v3 可以用于自然场景下的文本检测和识别,例如交通标志、商铺招牌等。 ### 回答2: Mask TextSpotter V3是一种针对复杂背景场景中文字识别的算法。它在原有Mask TextSpotter的基础上进行了升级和改进,能够识别更加复杂的场景和字体,实现了更加高效准确的文字检测和识别。 在Mask TextSpotter V3中,首先进行的是文本检测,通过使用Mask R-CNN算法,能够检测出包括任意形状的文本框,并对文本框进行分割,去除背景噪声。接着,针对检测到的文本框,进行文本识别。在传统的OCR(Optical Character Recognition,光学字符识别)方法中,大多采用基于字符切割的方式,将字母/汉字进行分离,再进行特征提取和分类识别。 但是在复杂场景中,往往有很多遮挡、曲折、扭曲等情况,单纯的字符分割识别方法会失效。为此,Mask TextSpotter V3采用了mask fusion的方式,通过融合文本框分割掩码和字符分割掩码,实现更加准确的字符识别。同时,还针对字符进行了多尺度、多方向、多采样的特征提取和分类,提高了识别的稳定性和准确性。 总的来说,Mask TextSpotter V3是一种高效准确的文本识别算法,能够应用于各种文字识别场景中,包括证件识别、号码识别、场景文本识别等。 ### 回答3: Mask TextSpotter V3是一种新型的文本检测和识别神经网络模型,它基于Mask R-CNN框架,通过引入RoI进行采样和池化,以实现文本语义分割和区域建议。该模型不仅可以识别水平文本,还可以检测和识别曲线和弯曲文本,其准确率高达90%,成为目前文本识别和检测领域的领先模型。 Mask TextSpotter V3的主要特点是将文本区域检测和文本识别合并到一个端到端的神经网络中,使得模型能够一次性地输出文本区域和对应的文本结果。该模型还采用多任务损失函数,确保文本检测和识别的结果能够互相促进,提高整个模型的准确率。 除此之外,Mask TextSpotter V3还引入了Transformers网络结构,用于实现文本序列识别。Transformers网络结构是一种基于自注意力机制(self-attention mechanism)的模型,能够处理不同位置之间的依赖关系,极大地提升了文本识别的准确率。 总之,Mask TextSpotter V3是一种前沿、高效且准确的文本检测和识别模型,可以广泛应用于自动驾驶、OCR、图像搜索等领域,为人工智能应用的发展带来新的突破。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

开始学AI

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值