Shape Robust Text Detection with Progressive Scale Expansion Network 复现
Shape Robust Text Detection with Progressive Scale Expansion Network 这篇文章出的较早,当时出的没多久看到这篇文章,觉得比较有意思便开始复现。复现其实早就完成,不过在IC15上精度始终只有80左右(当时坚持只用IC15的数据进行训练,认为会达到一个不错的效果),和文章中的相去甚远,便觉复现 。最近看到了作者开源代码作者代码,Github中的精度和论文中的结合起来看,真是让人一言难尽,不过不得不承认作者做的确实是一个不错的工作。
我是在入坑文字检测初期使用过tensorflow复现的这篇论文,只用IC15的数据可和作者达到相当的精度,使用MLT pretrain没试过。
TensorFlow复现链接: github link
Result(Trained only with the ICDAR15, no extra data)
Dataset | precision | recall | F-measure (%) |
---|---|---|---|
ICDAR15 | 84.5 | 77.3 | 80.7 |
关于PSENet算法,论文讲的比较清楚,再解读未免显得赘余。只说说自己的看法。
- 论文的方法较好的解决了分割图粘连的情况,实现了实例分割,并且复杂度不高,同时由于该方法基于分割,故对曲形文本也是有效的。
- 单独考虑IC15数据集,目前基于分割的方法基本取得得精度最高也就82%左右,包括本文(只使用IC15只有80%), 而mask-rcnn直接可达84%左右,two-stage还是有巨大优势。这带来得启发是:如果想做出一个好看的结果(87%左右),那就换更强的baseline和使用更多得数据,并在此基础上做自己的方案。
关于代码:
- 目前PSE 算法采用C++实现,采用cython 进行包装,单次耗时10ms左右。测试较慢主要是因为输入图片较大(2240*1280), 网络推理时间较长。
- 准备学下CUDA, 在GPU上实现PSE算法,倒不是为加速,Just for fun!
测试样图(使用三个不同的核大小)