pse文本行检测_文字检测算法:PSENet

一、文字检测方法:PSENet基本思想概述

PSENet是一种基于语义分割的文字检测方法。在此之前,文字检测主要面临两个挑战:1.基于anchor的方法不能检测出任意形状的文本。

2.基于语义分割的逐像素 检测方法无法区分距离很近的文本。

PSENet很好地解决了上述的两个问题,其基本思想是:

问题一:如何解决基于anchor的方法不能检测出任意形状的文本?问题分析:基于anchor的检测可以类比目标检测,如YOLO,在训练与推理的过程中目标的位置描述为为bounding box的中心坐标x,y还有宽高,w,h。如果文字为曲形,如下图所示,基于这种思想的检测方法就很难检测出文字的准确位置。基于anchor的检测结果

PSENet的解决方法其实很简单,要想检测出任意形状的文本位置,最好是能区分出图像中每个像素的属性,即,对每个像素进行分类。实际上就是使用语义分割。

问题二:基于语义分割的逐像素检测方法无法区分距离很近的文本,PSENet该如何规避?问题分析:当两行文本离得很近,上下两行文本之间的间隙很小,模型是比较难判断上下很近的文字是不是同一行。如下图所示:一般的语义分割检测结果

PSENet的解决方法是:我们的目的是为了区分两行距离很近的文字,核心在于两行离得很近的文本之间的间距很小,以至于模型无法检测出来。那么,能不能想办法来“放大”行之间的距离?PSENet的巧妙之处正在于此!PSENe

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值