vrml场景实例代码_Mask TextSpotter v3：用于场景文字检测和识别的分割Proposal网络...

最新推荐文章于 2024-04-16 09:30:57 发布

weixin_39621075

最新推荐文章于 2024-04-16 09:30:57 发布

阅读量177

点赞数

文章标签： vrml场景实例代码

Mask TextSpotter v3: Segmentation Proposal Network for Robust Scene Text Spotting

作者团队：华中科大(白翔团队)&Facebook AI
代码：MhLiao/MaskTextSpotterV3
论文：Mask TextSpotter v3: Segmentation Proposal Network for Robust Scene Text Spotting

注：如果上述论文链接无法访问，可以看文末，论文已上传至百度云，方便下载。

表现SOTA！性能优于自家v2、ABCNet、CharNet等网络，代码刚刚开源！

最近的端到端可训练的场景text spotting，集成检测和识别的方法显示出很大的进步。但是，当前大多数任意形状的场景文本 spotters都使用RPN来生成 proposals。

RPN严重依赖手动设计的anchor，其proposals以与轴对齐的矩形表示。前者在处理极高宽高比或不规则形状的文本实例时会遇到困难，而在面向密集文本的情况下，后者通常会在一个proposal中包含多个相邻实例。

为解决这些问题，我们提出了Mask TextSpotter v3，这是一种采用分割proposal网络（SPN）而不是RPN的端到端可训练场景文本观察器。我们的SPN是 anchor-free，可以准确表示任意形状的proposals。因此，它在检测极高宽高比或不规则形状的文本实例方面优于RPN。此外，由SPN生成的准确proposals允许将masked RoI 特征用于解耦相邻的文本实例。因此，我们的Mask TextSpotter v3可以处理具有高长宽比或不规则形状的文本实例，并且其识别精度不会受到附近文本或背景噪声的影响。