PSENet tensorflow 复现

博主分享了使用TensorFlow复现ShapeRobustTextDetectionwithProgressiveScaleExpansionNetwork论文的过程,仅用IC15数据集达到了80.7%的F-measure。论文通过解决分割图粘连问题,有效实现了曲形文本的实例分割。
摘要由CSDN通过智能技术生成

Shape Robust Text Detection with Progressive Scale Expansion Network 复现

Shape Robust Text Detection with Progressive Scale Expansion Network 这篇文章出的较早,当时出的没多久看到这篇文章,觉得比较有意思便开始复现。复现其实早就完成,不过在IC15上精度始终只有80左右(当时坚持只用IC15的数据进行训练,认为会达到一个不错的效果),和文章中的相去甚远,便觉复现 。最近看到了作者开源代码作者代码,Github中的精度和论文中的结合起来看,真是让人一言难尽,不过不得不承认作者做的确实是一个不错的工作。

我是在入坑文字检测初期使用过tensorflow复现的这篇论文,只用IC15的数据可和作者达到相当的精度,使用MLT pretrain没试过。
TensorFlow复现链接: github link

Result(Trained only with the ICDAR15, no extra data)

DatasetprecisionrecallF-measure (%)
ICDAR1584.577.380.7

关于PSENet算法,论文讲的比较清楚,再解读未免显得赘余。只说说自己的看法。

  1. 论文的方法较好的解决了分割图粘连的情况,实现了实例分割,并且复杂度不高,同时由于该方法基于分割,故对曲形文本也是有效的。
  2. 单独考虑IC15数据集,目前基于分割的方法基本取得得精度最高也就82%左右,包括本文(只使用IC15只有80%), 而mask-rcnn直接可达84%左右,two-stage还是有巨大优势。这带来得启发是:如果想做出一个好看的结果(87%左右),那就换更强的baseline和使用更多得数据,并在此基础上做自己的方案。

关于代码

  1. 目前PSE 算法采用C++实现,采用cython 进行包装,单次耗时10ms左右。测试较慢主要是因为输入图片较大(2240*1280), 网络推理时间较长。
  2. 准备学下CUDA, 在GPU上实现PSE算法,倒不是为加速,Just for fun!

测试样图(使用三个不同的核大小)
在这里插入图片描述
在这里插入图片描述

评论 8
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值