PixelLink: Detecting Scene Text via Instance Segmentation

PixelLink是一种新颖的文本检测算法,通过实例分割和链接预测实现,避免了位置回归,能在较少数据和迭代下达到优于基于回归方法的性能。通过像素级预测和链接连接,形成文本实例,使用minAreaRect提取边界框。实验表明PixelLink在多个数据集上表现出色,且对感受野需求较低。
摘要由CSDN通过智能技术生成

浙江大学&阿里巴巴研究院&中科院                                 场景文本检测

目前最好的场景文本检测算法中大部分是依赖于文本/非文本分类和位置回归,而且回归在获取边框中扮演关键的角色,但是并不是必不可少的,因为文本/非文本的预测也可以看作是一种包含所有位置信息的语义分割,但是文本实例距离太近,使用语义分割不太容易分隔开,所以使用实例分割。

优点:相比于基于回归的方法,能实现更好的性能,且需要更少的训练数据和迭代次数。

目前的很多文本检测方法是基于全卷积网络,并且至少执行两种预测:1、文本/非文本分类;2、位置回归。

在PixelLink,中,它直接从实例分割结果中提取文本位置,而不是从边界框回归中提取。模型做了两种像素级的预测:text/non-text prediction, and link prediction。文本实例中的像素标记为正(即文本像素),否则标记为负例(即非文本)像素)。每个像素有8个邻居。对于给定像素及其一个邻居,如果它们位于同一实例内,则它们之间的链接标记link为正,否则为负。 预测的正像素通过预测的正链接link连接在一起成为连接组件(CC)。 以这种方式实现实例分割,其中每个CC表示一个检测到的文本。 像OpenCV中的minAreaRect(2014)这样的方法可以用于获得CCs的边界框作为最终检测结果。

我们的实验证明了PixelLink的比基于回归的最先进方法更好。 特别地,从零开始训练,PixelLink模型可以实现几个基准的可比性或更好的性能同时需要较少的训练迭代和较少的训练数据。

分割任务是将像素标签分配给一个图像。 当只考虑对象类别时,它就是称为语义分割。 主导的语义分割方法通常采用全卷积网络(FCN)的方法(Long,Shelhamer和Darrell 2015)。实例分割比语义分割更具挑战性因为它不仅需要每个像素的目标类别而且也是实例区别性的。 它与一般的目标检测的关系比跟语义分割的关系更相关,因为是与目标实例相关。 最近的实例分割方法大量使用物体检测系统。 FCIS(李等。 2016)扩展了R-FCN(Dai等人,2016年)中的位置敏感预测的想法。 Mask R-CNN(He等人,2017a)在faster R-CNN中改变RoIPooling(Ren et al.2015)为RoIAlign。 他们都在同一个深度模型中做了检测和分割,并高度依赖于他们的分割结果对检测性能。

我的想法是做一个实例分割和回归一起来做检测的方法。

使用VGG16来做特征提取,然后把VGG16的全连接层fc6,fc7变成卷积层,也使用了特征融合以及像素级的预测的思想。模型的两个子任务是1、文本/非文本的预测;2、link的预测。最后的输出层使用softmax,所以,它们的输出分别由1*2=2和8*2=16个通道。有两种特征融合的设置,PixelLink+VGG16 2s and PixelLink+VGG16 4s的分辨率分别是原始图像的1/2和1/4。

给定预测出的像素和links

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值