Mask TextSpotter v3 来了!最强端到端文本识别模型

场景文本的识别可以用文本检测+文本识别两个过程来做,近年来端到端的场景文本识别(即Text Spotting)越来越引起学术界的重视,而华中科技大学白翔老师组的 Mask TextSpotter v1、v2 一直是该领域的代表性工作。

近日  Mask TextSpotter v3 发布,代码已开源,论文 Mask TextSpotter v3: Segmentation Proposal Network for Robust Scene Text Spotting 详细介绍了其要解决的问题、使用的方案和达到的性能,此次更新依然带来惊喜,在多个数据集上大幅刷新了SOTA!

该文作者信息:

作者来自华中科技大学和 Facebook AI。

文中称 Mask TextSpotter v3  在 ICDAR 2013 数据集上提升了 21.9个百分点,在Total-Text 数据集上提升了5.9个百分点,在MSRA-TD500 数据集上也达到了SOTA,证明该算法具有强大的应对文本旋转、形状多变和极端纵横比的鲁棒性。

要解决的问题

如下图:

之前的端到端文本识别模型使用包围文本的矩形框作为Proposals,在应对旋转、形状任意和极端纵横比的文本时存在明显的缺陷。图中(a)内部的Proposals对应的特征包含邻接文本的特征,不能很好的识别文本。

而Mask TextSpotter v3使用一种称之为分割候选网络( Segmentation Proposal Network )生成多边形Proposals,并在此Proposals基础上计算hard ROI 特征,更好的表征了文本区域,可以取得更好的识别结果。

Mask TextSpotter v3 的关键是如何得到包围文本的多边形Proposals(通过分割的思想),和硬加权的hard ROI 特征,作者的实验证明去除干扰的hard ROI 特征可大幅提高识别精度。

Mask TextSpotter v3整体流程

如下图:

Mask TextSpotter v3 使用U-Net结构提取分割的特征,同FPN不同,v3 直接将不同的尺度特征融合成特征 F,使用 F 做文本区域的预测,对预测得到的在(0,1)之间的连续值结果,使用DB(Real-time scene text detection with differentiable binarization,AAAI 2020)二值化得到多个文本区域,然后将连通的区域作为一个文本实例的收缩(这里是关键!),对其进行一定系数的膨胀操作,即得到了文本Proposal。

得到文本区域 Proposal 后,仅含有0和1元素的二值多边形mask矩阵与特征按元素相乘,得到Hard ROI masking 特征。此处名中的Hard(硬)因为这里是仅含有0与1的二值加权,ROI masking 操作按照多边形 mask 将特征在表示对应区域上“提精”了。

到这里既找到了文本区域,又有了每个文本区域对应的特征,作者按照Mask TextSpotter v2 的流程进行识别,使用Fast R-CNN算法,字符分割模块和空间注意力模型都被用于识别。

在训练的时候,要制作分割标签,下图为标签生成示意图:

Mask TextSpotter v3 针对  v2 中的 Proposal 的产生进行了改进,并利用Hard ROI masking 提精了文本实例对应的ROI特征,可以在文本检测的三大难题(旋转、形状任意、极端纵横比)中得到更好的结果。

实验结果

作者在多个数据集上进行了实验,以下为在三个数据集上识别结果可视化:

应对旋转,比v2更好:

应对极端纵横比,比v2更好:

应对形状任意文本,比v2更好:

以下为在ROIC13数据集上在检测任务和端到端识别任务中的结果比较,大幅超越之前的SOTA:

以下为在MSRA-TD500数据集上在检测任务中的结果:

在Total-Text 数据集上端到端识别结果:

应对小实例文本数据集,在IC15上的结果比较,v3 取得了三个最好结果:

总结与思考

Mask TextSpotter v3 在端到端文本识别任务中实现了更高的精度,得益于从分割中获得文本多边形区域表示和Hard ROI masking 特征提精方法。

值得一提的是, v3 基于 v2 和可微分二值化方法 DB 等,这些研究都出自华科白翔老师组,体现出作者们对问题的"系统性"思考而产生的不断的技术创新。

论文地址:

https://arxiv.org/abs/2007.09482

代码地址:

https://github.com/MhLiao/MaskTextSpotterV3

请长按或扫描二维码关注本公众号

喜欢的话,请给我个好看吧

### 回答1: masktextspotterv3是一个用于文本识别和检测的模型。它基于深度学习技术,能够自动识别图像中的文字,并且可以检测文字所在的位置。与其他文本识别模型不同的是,masktextspotterv3能够检测和识别旋转、弯曲、倾斜等复杂形状的文本,具有很高的识别精度和鲁棒性。该模型已经在很多场景下得到了广泛的应用,例如自动驾驶、智能门禁、文档识别等领域。 是的,你说得对。masktextspotterv3是一个基于深度学习技术的文本识别和检测模型,能够自动识别图像中的文字,并且可以检测文字所在的位置。它的特点是能够检测和识别旋转、弯曲、倾斜等复杂形状的文本,具有很高的识别精度和鲁棒性。该模型已经在很多场景下得到了广泛的应用,包括自动驾驶、智能门禁、文档识别等领域。Mask TextSpotter v3 是一个针对场景文本检测和识别深度学习模型。它采用了 Mask R-CNN 和 CRNN 两个网络结构,能够在复杂的背景下精确地检测和识别场景文本Mask TextSpotter v3 的主要特点包括: 1. 支持多语言,能够识别包括中文在内的多种语言。 2. 能够在低分辨率、低对比度等极端条件下仍能准确检测和识别文本。 3. 采用双向 GRU 网络结构,对文本进行识别和校正,提高了识别准确率。 4. 可以处理不同尺寸和方向的文本。 在实际应用中,Mask TextSpotter v3 可以用于自然场景下的文本检测和识别,例如交通标志、商铺招牌等。 ### 回答2: Mask TextSpotter V3是一种针对复杂背景场景中文字识别算法。它在原有Mask TextSpotter的基础上进行了升级和改进,能够识别更加复杂的场景和字体,实现了更加高效准确的文字检测和识别。 在Mask TextSpotter V3中,首先进行的是文本检测,通过使用Mask R-CNN算法,能够检测出包括任意形状的文本框,并对文本框进行分割,去除背景噪声。接着,针对检测到的文本框,进行文本识别。在传统的OCR(Optical Character Recognition,光学字符识别)方法中,大多采用基于字符切割的方式,将字母/汉字进行分离,再进行特征提取和分类识别。 但是在复杂场景中,往往有很多遮挡、曲折、扭曲等情况,单纯的字符分割识别方法会失效。为此,Mask TextSpotter V3采用了mask fusion的方式,通过融合文本框分割掩码和字符分割掩码,实现更加准确的字符识别。同时,还针对字符进行了多尺度、多方向、多采样的特征提取和分类,提高了识别的稳定性和准确性。 总的来说,Mask TextSpotter V3是一种高效准确的文本识别算法,能够应用于各种文字识别场景中,包括证件识别、号码识别、场景文本识别等。 ### 回答3: Mask TextSpotter V3是一种新型的文本检测和识别神经网络模型,它基于Mask R-CNN框架,通过引入RoI进行采样和池化,以实现文本语义分割和区域建议。该模型不仅可以识别水平文本,还可以检测和识别曲线和弯曲文本,其准确率高达90%,成为目前文本识别和检测领域的领先模型Mask TextSpotter V3的主要特点是将文本区域检测和文本识别合并到一个端到端的神经网络中,使得模型能够一次性地输出文本区域和对应的文本结果。该模型还采用多任务损失函数,确保文本检测和识别的结果能够互相促进,提高整个模型的准确率。 除此之外,Mask TextSpotter V3还引入了Transformers网络结构,用于实现文本序列识别。Transformers网络结构是一种基于自注意力机制(self-attention mechanism)的模型,能够处理不同位置之间的依赖关系,极大地提升了文本识别的准确率。 总之,Mask TextSpotter V3是一种前沿、高效且准确的文本检测和识别模型,可以广泛应用于自动驾驶、OCR、图像搜索等领域,为人工智能应用的发展带来新的突破。
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值