之前用MaskRCNN检测了版面图片中的图片、表格、公式,整体效果还可以,想想能不能对MaskRCNN稍作修改,让它来检测文本行?带着这个好奇心,我出发了。
第一步,标注数据
目前来说,数据是学习DL的重要,没有数据,只能算理论上了解DL,用实际数据实践是学习巩固DL理论知识必要环节。
如果需要自己标记数据集的话可以用labelme,我这个是之前处理结果批量生成的,因为要一行一行标注一两万张这样的数据,那真是要命的。
下面是版面图片中的文本行标注后的结果样例。
第二步,改动代码&训练
此步省略...
第三步,测试结果
总体检测效果还行,细节方面还需要继续改进,但是我并不准备花太多时间对它进行改进,因为MaskRCNN做文本行检测速度实在太慢了,就算改进到最后效果很棒,速度上也不能接受,这次训练就当一个小测试就行。