【论文速读】Dan_Deng_AAAI2018_PixelLink_Detecting_Scene_Text_via_Instance_Segmentation

作者和代码

1058268-20181113214441541-1111837722.png

tensorflow代码

关键词

文字检测、多方向、直接回归、$$xywh\theta$$、one-stage、开源

方法亮点

  • 使用instance segmentation的思路做(利用了二类分类+每个像素点与周围8个顶点的link分类)
  • 利用图像处理方法进行后处理,不需要用NMS

方法概述

本文方法采用instance segmentation思路,预测text/non-text和pixel-link关系,再使用简单的图像处理的方式进行后处理来去除噪声。

1058268-20181113214501431-470109136.png

方法细节

方法流程图

1058268-20181113214608429-931464633.png

网络结构

1058268-20181113214616286-560422389.png

Link定义
  • 两个像素的都是positive(text)-> link是positive
  • 一个是text,一个是non-text -> link是positive
  • 两个都是non-text -> link是negative
损失函数
  • 总损失

1058268-20181113214635379-1352718194.png

  • pixel 损失(Instance-Balanced Cross-Entropy Loss)

    利用每个instance的面积来对其loss进行加权,目的是为了提高小目标对loss的贡献。

1058268-20181113214736003-577111088.png

1058268-20181113214740296-1303909255.png

1058268-20181113214800266-878124867.png

  • link损失

    link_CE是Cross-Entropy loss。

1058268-20181113214827947-2026868562.png

1058268-20181113214837549-526531779.png

1058268-20181113214843395-242644706.png

后处理
  • 通过pixel信息来链接Text/non-text prediction的score map里的像素,得到instance segmentation map
  • 利用OpenCV的minAreaRect来提取oriented rectangle
  • 使用后处理过滤噪声
    • 去掉短边小于10个像素的box
    • 去掉面积小于300的box
    • 其他利用长宽比等(参数设置为在训练集上做统计,利用百分比对应的值作为参数,例如99%以上的文字短边都大于10,)

实验结果

  • ICDAR2015

1058268-20181113214930962-2143151447.png

  • MSRA-TD500

1058268-20181113214943088-895161606.png

  • ICDAR2013

1058268-20181113214955891-1885758421.png

  • 模型分析对比实验
    1058268-20181113215014962-1119892531.png
    1058268-20181113215024872-1739316897.png

总结与收获

这篇方法采用纯分割的思路,完全没有利用目标检测的方法,连后处理都没用nms,方法还是比较特别的。

转载于:https://www.cnblogs.com/lillylin/p/9955024.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值