文本检测加识别:Mask TextSpotter

Framework

在这里插入图片描述(1)以特征金字塔网络(FPN)为骨干,提取feature map:
自然图像中的文本大小各不相同。为了在所有尺度上构建高层次的语义特征图,我们使用了一个深度为50的ResNet[14]的特征金字塔结构[32]主干。FPN采用自顶向下的体系结构,融合了单尺度输入的不同分辨率特性,提高了精度,同时降低了边际成本。
(2)区域建议网络(RPN)为生成文本建议(ROI):
RPN用于为后续的快速R-CNN和掩码分支生成文本建议。我们根据锚的大小在不同的阶段分配锚。具体来说,锚点的面积分别设置为{P2, P3, P4, P5, P6}五个阶段的{32,64,128,256,512}像素。各阶段还采用不同的纵横比{0.5,1,2}。通过这种方式,RPN可以处理各种大小和长宽比的文本。RoI Align用于提取提案的区域特征。与RoI pooling相比,RoI Align保存了更精确的位置信息,这对于掩模分支中的分割任务非常有利。需要注意的是,在之前的作品中,并没有采用特殊的文本设计,例如文本的特殊纵横比或锚点的方向。
(3)fast R-CNN:
快速R-CNN分支包括一个分类任务和一个回归任务。这个分支的主要功能是为目标检测提供更准确的信息,fast R-CNN的输入为7×7(ROI Align产生)。
(4)Mask Branch:
掩码分支中有两个任务,包括全局文本实例分割任务和字符分割任务。如图所示,给一个输入RoI,其大小是固定的16×64,通过四个卷积层和一层de-convolutional分支预测feature map(32×128大小),包括全局文本实例映射,36个字符映射和背景地图的字符。无论文本实例的形状如何,全局文本实例映射都可以精确地定位文本区域。字符图由36个字符组成,包括26个字母和10个阿拉伯数字。字符的背景图(不包括字符区域)也需要进行后处理
在这里插入图片描述

测试过程

在训练过程中,ROI Align之后fast RCNN模块和Mask模块是同时进行的。也就是说RPN处理过剩下的大概1000-2000个框都需要进入后续的fast RCNN模块和Mask模块。这么多框进入fast RCNN模块可以理解,进入Mask模块可以起到类似随机crop的操作,更加有利于Mask模块中FCN的学习。
在测试阶段,ROI Align之后,先经过fast RCNN模块生成更加少更加精确的文本框,然后再利用这些文本框进行Mask模块的ROI Align操作。
在这里插入图片描述其中,求类别得分这步利用了pixel voting算法。如上图所示,对于每一个特征图通过阈值192进行二值化操作。然后计算每一个特征图中高亮区域的均值,均值得分最高的为预测的类别。
在这里插入图片描述推测部分还对传统的Edit Distance进行了改进,提出了Weighted Edit Distance ,应该是识别之后的矫正工作,保证输出结果为一个真实存在的单词。
在这里插入图片描述

损失函数

多任务损失:
在这里插入图片描述
主要包含3个损失,RPN模块的损失,Fast RCNN模块的损失,这些都和faster RCNN的一样。Mask 模块的损失。其中平衡因子a1=1,a2=1。
在这里插入图片描述
Mask 模块的损失包含了全局的实例分割的损失和每一个字符的语意分割的损失。其中平衡因子beita=1。
在这里插入图片描述其中Lglobal是binary cross-entropy 损失。S表示gigmoid函数。
在这里插入图片描述
Lchar表示加权的soft-max loss 。其中T表示类别数目,N表示所有的像素数目。W表示用于平衡字符和背景的权值。

总结:

(1)Mask TextSpotter对曲面的文本具有较好的召回率。
(2)Mask TextSpotter支持整体端到端的训练,是一个集检测+识别的一体化的框架。
(3)识别部分只能识别26个字母+10个数字,简单的场景或许可以,实际应用的话,不现实。如果这里想进行更多类别的分类也不实际。

参考文章:https://blog.csdn.net/qq_14845119/article/details/81505673

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: masktextspotterv3是一个用于文本识别检测的模型。它基于深度学习技术,能够自动识别图像中的文字,并且可以检测文字所在的位置。与其他文本识别模型不同的是,masktextspotterv3能够检测识别旋转、弯曲、倾斜等复杂形状的文本,具有很高的识别精度和鲁棒性。该模型已经在很多场景下得到了广泛的应用,例如自动驾驶、智能门禁、文档识别等领域。 是的,你说得对。masktextspotterv3是一个基于深度学习技术的文本识别检测模型,能够自动识别图像中的文字,并且可以检测文字所在的位置。它的特点是能够检测识别旋转、弯曲、倾斜等复杂形状的文本,具有很高的识别精度和鲁棒性。该模型已经在很多场景下得到了广泛的应用,包括自动驾驶、智能门禁、文档识别等领域。Mask TextSpotter v3 是一个针对场景文本检测识别的深度学习模型。它采用了 Mask R-CNN 和 CRNN 两个网络结构,能够在复杂的背景下精确地检测识别场景文本Mask TextSpotter v3 的主要特点包括: 1. 支持多语言,能够识别包括中文在内的多种语言。 2. 能够在低分辨率、低对比度等极端条件下仍能准确检测识别文本。 3. 采用双向 GRU 网络结构,对文本进行识别和校正,提高了识别准确率。 4. 可以处理不同尺寸和方向的文本。 在实际应用中,Mask TextSpotter v3 可以用于自然场景下的文本检测识别,例如交通标志、商铺招牌等。 ### 回答2: Mask TextSpotter V3是一种针对复杂背景场景中文字识别的算法。它在原有Mask TextSpotter的基础上进行了升级和改进,能够识别复杂的场景和字体,实现了更高效准确的文字检测识别。 在Mask TextSpotter V3中,首先进行的是文本检测,通过使用Mask R-CNN算法,能够检测出包括任意形状的文本框,并对文本框进行分割,去除背景噪声。接着,针对检测到的文本框,进行文本识别。在传统的OCR(Optical Character Recognition,光学字符识别)方法中,大多采用基于字符切割的方式,将字母/汉字进行分离,再进行特征提取和分类识别。 但是在复杂场景中,往往有很多遮挡、曲折、扭曲等情况,单纯的字符分割识别方法会失效。为此,Mask TextSpotter V3采用了mask fusion的方式,通过融合文本框分割掩码和字符分割掩码,实现更准确的字符识别。同时,还针对字符进行了多尺度、多方向、多采样的特征提取和分类,提高了识别的稳定性和准确性。 总的来说,Mask TextSpotter V3是一种高效准确的文本识别算法,能够应用于各种文字识别场景中,包括证件识别、号码识别、场景文本识别等。 ### 回答3: Mask TextSpotter V3是一种新型的文本检测识别神经网络模型,它基于Mask R-CNN框架,通过引入RoI进行采样和池化,以实现文本语义分割和区域建议。该模型不仅可以识别水平文本,还可以检测识别曲线和弯曲文本,其准确率高达90%,成为目前文本识别检测领域的领先模型。 Mask TextSpotter V3的主要特点是将文本区域检测文本识别合并到一个端到端的神经网络中,使得模型能够一次性地输出文本区域和对应的文本结果。该模型还采用多任务损失函数,确保文本检测识别的结果能够互相促进,提高整个模型的准确率。 除此之外,Mask TextSpotter V3还引入了Transformers网络结构,用于实现文本序列识别。Transformers网络结构是一种基于自注意力机制(self-attention mechanism)的模型,能够处理不同位置之间的依赖关系,极大地提升了文本识别的准确率。 总之,Mask TextSpotter V3是一种前沿、高效且准确的文本检测识别模型,可以广泛应用于自动驾驶、OCR、图像搜索等领域,为人工智能应用的发展带来新的突破。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值