Pyramid Mask Text Detector阅读笔记

2020.9.9

Pyramid Mask Text Detector

  作者分析了先前以Mask-RCNN为基础的方法存在的问题,并在此基础上提出了改进办法并设计了PMTD。

问题分析

1.多数文本检测数据集采用矩形框坐标的形式标注文本所在位置,与Mask-RCNN中使用Mask来区分前后景区域的思想相悖。使用矩形标签训练并不能凸显Mask-RCNN的优势;
2.根据矩形坐标标签虽然也可以生成像素级的分割标签以用于训练Mask-RCNN类方法,但其中存在大量的假真区域,由于标签形状的限制,图中存在大量的非字符区域也被划分到了正样本集合中,而导致的结果必然是准确率降低;

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-qAKrJ6qA-1599707525504)(C:\Users\89714\AppData\Roaming\Typora\typora-user-images\image-20200909160132376.png)]
3.Mask-RCNN使用的hard mask硬分割,导致文本区域检测不全,文本检测与目标检测的目的不同,目标检测的结果若与实际存在些许偏差,或许并不会影响下一步的分类或其他工作,但文本检测的误差会直接导致后续文本识别信息缺失。通俗的说,好比通过一个人的全身像和半身像,都可以对这个人的身份进行辨识,但是一句话缺了一半,我们很难判断其所表达的意思。

解决方法
  1. 采用金字塔式的Label:根据给定的矩形框坐标,确定矩形框中心点O,并设O点值为1。使用线性插值法对分割标签赋值,取值与其距O点距离成反比。

    在这里插入图片描述

    假设A、B、C、D为标签边界框四顶点,则根据四点坐标可得文本区域中心点O,设O点值为1,假设一点P位于 Δ O D C \Delta ODC ΔODC区域内,则向量 O P → \overrightarrow{OP} OP <

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值