![cee0506977c947984d91c8aa894f915e.png](https://i-blog.csdnimg.cn/blog_migrate/027bbade91391d797bd7b318c65ee1fd.jpeg)
Mask TextSpotter v3: Segmentation Proposal Network for Robust Scene Text Spotting
![8302c08a9a6a929cf9d5e88f38bbab48.png](https://i-blog.csdnimg.cn/blog_migrate/70c61b1cee358a03e7e38ad3966c158b.jpeg)
作者团队:华中科大(白翔团队)&Facebook AI
代码:MhLiao/MaskTextSpotterV3
论文:Mask TextSpotter v3: Segmentation Proposal Network for Robust Scene Text Spotting
注:如果上述论文链接无法访问,可以看文末,论文已上传至百度云,方便下载。
表现SOTA!性能优于自家v2、ABCNet、CharNet等网络,代码刚刚开源!
最近的端到端可训练的场景text spotting,集成检测和识别的方法显示出很大的进步。但是,当前大多数任意形状的场景文本 spotters都使用RPN来生成 proposals。
![85a021cd7831a96485ec4b6c151aefa3.png](https://i-blog.csdnimg.cn/blog_migrate/622f3e4a63e31212b55969c7dc9e5949.jpeg)
RPN严重依赖手动设计的anchor,其proposals以与轴对齐的矩形表示。前者在处理极高宽高比或不规则形状的文本实例时会遇到困难,而在面向密集文本的情况下,后者通常会在一个proposal中包含多个相邻实例。
为解决这些问题,我们提出了Mask TextSpotter v3,这是一种采用分割proposal网络(SPN)而不是RPN的端到端可训练场景文本观察器。我们的SPN是 anchor-free,可以准确表示任意形状的proposals。因此,它在检测极高宽高比或不规则形状的文本实例方面优于RPN。此外,由SPN生成的准确proposals允许将masked RoI 特征用于解耦相邻的文本实例。因此,我们的Mask TextSpotter v3可以处理具有高长宽比或不规则形状的文本实例,并且其识别精度不会受到附近文本或背景噪声的影响。
![3904d1b06da3282b85ce5c6ecf36c06b.png](https://i-blog.csdnimg.cn/blog_migrate/99439ee5987925bd1acd8349120aa741.jpeg)
![c70b9fc322227c42775bd2eca1cd9776.png](https://i-blog.csdnimg.cn/blog_migrate/18b78ec7c12c04d8dab3c1dd4cac2bf5.jpeg)
实验结果
我们在Rotated ICDAR 2013数据集(旋转鲁棒性)上比最新方法高出21.9%,在Total-Text数据集(形状鲁棒性)上比最新技术高出5.9%,并在MSRA-TD500数据集(纵横比的稳健性)。
![5e5ed23ddfe99503873131abd366f17e.png](https://i-blog.csdnimg.cn/blog_migrate/bab7a74af75ed3c988559b0f03de3575.jpeg)
![6b65fec33323d45b1a78c0f7e14ffd9a.png](https://i-blog.csdnimg.cn/blog_migrate/5b01edf55a83ad7692cf07ed525cfc8a.jpeg)
![75f459bb33c748b8e519c4d543acfb02.png](https://i-blog.csdnimg.cn/blog_migrate/c34292d359c78e412fe0871185076a7f.jpeg)
![f8a8a6c5ec66011044c9c3f91004993c.png](https://i-blog.csdnimg.cn/blog_migrate/0e4fedb1ca2ede21951e1dd099e622e6.jpeg)
下载
链接: https:// pan.baidu.com/s/19XoFLp uXMSM_dv3ZNuM2gQ
提取码:e43l
强烈推荐大家关注计算机视觉论文速递知乎专栏和CVer微信公众号,可以快速了解到最新优质的CV论文。
推荐阅读
使用深度神经网络从Noisy Labels中学习:全面调研
PyTorch3D:面向3D计算机视觉的PyTorch工具箱
剪枝filter?还是剪枝layer?这是个问题
Facebook发布FAIRScale:用于高性能和大规模训练的PyTorch工具
ECCV 2020 | 53.5 AP!PAA:用于目标检测的IoU预测的概率Anchor分配
ECCV 2020 | DecoupleSegNets:通过解耦的主体和边缘监督改进语义分割
ECCV 2020 Oral | LISRD:局部特征描述符的在线不变性选择
ECCV 2020 | BMask R-CNN:边界保持的Mask R-CNN
ECCV 2020 | 即插即用!PSConv:将特征金字塔压缩到紧凑的多尺度卷积层中
ECCV 2020 | STTN:用于视频修复的时空联合Transformer
ECCV 2020 Oral | DG-Net++:面向跨域的行人重识别新网络
ECCV 2020 | 北邮提出PMG:通过渐进式多粒度拼图训练进行细粒度视觉分类
ECCV 2020 | 通过聚类无标签数据来提高人脸识别能力