目的:使用分类的方法去处理标注有英文注解的外文,在无需理解外文情况下,识别出外国文字;
处理难点:世界上各国语言丰富多样,无法掌握各个国家的语言文字;在有英文注解的情况下,使用分类直接处理外文文字;这种处理方法只限于外文类别有限的情况;
识别图形:
处理流程:
1.收集所有需要识别的外文种类;(目前本人收集了74类)
2.将语言相同,英文字形相近的图片合并为1类;
如下面标红的类别,有助于减少分类网络fc层的参数;
3.以数量最多的那一类别的数量作为目标,将其他类别使用各种方法扩充数据,从而使样本量均衡;
扩充要点:
1.需要在训练样本中添加场景数据(最终测试时场景文字),这个不过多解释;
2.扣取目标文字时,在不产生歧义的情况下,可以多保留一些背景用于数据增强;
原始标签数据:
扩充数据,扣取数据样本时随机增加宽和高:
这样做的目的是因为:背景对于前景影响比较大,文本检测结果通常会出现一些错误,导致检测的文本边框无法很好的贴合到文本边框,如果测试样本中出现了训练样本中没有出现过的背景,那对于分类结果影响比较大,这个大家可以整理数据自己做一些对比测试;最简单的对比测试方法就是将测试结果不准确的样本紧贴文本边框扣取后,再送入模型做测试,分类不正确的样本此时可能会分类正确;
在正负样本选取时,要注意:
正样本是与GT的IOU值大于阈值时的取值,负样本是小于阈值的,其他的则把它去除即可,总之,正负样本都是针对于程序生成的框框而言,而非GT数据。(原文链接:https://blog.csdn.net/qq_26413875/article/details/100184308)