pytorchOCR之数据篇
文本检测
- 目前训练数据是基于icdar2015数据集来做算法效果对比的。
-
- 训练数据说明:
标注图片:
标注文件:
如上图所示,标注文件中存放着标注框的坐标,一共7行即为7个框,对应图片中红色的框的四个角点的坐标如绿色圆圈所示,角点的记录顺序为1,2,3,4即为左上,右上,右下,左下的四个点的(x,y),一共8个坐标,,最后一个是标注框的label,其中###代表着文本模糊或者说可忽略文本,这种文本将不参与文本训练。 - 训练时需要的数据文件说明
在训练时需要在config对应算法yaml文件中的train_file指定一个train_list.txt(名字可以改),该文件的样例如下:
即为图片的绝对地址和label文件的绝对地址,中间用‘\t’分隔。这样是为了把图片和标注文件一一对应,用于训练时读取。 - 验证时需要的数据文件说明
在训练时需要在config对应算法yaml文件中的test_file指定一个test_list.txt(名字可以改),该文件的样例如下:
这里只需要图片的绝对地址,但是这里需要在config文件多给一个test_gt_path,即为验证数据的标注文件地址…
文本识别
文本识别这里只实现了目前最常用的crnn
-
训练数据说明
训练图片:
训练的label:发布文章
如上图,图片上的字和label一样。 -
训练时需要的数据文件说明
在训练时需要在config对应算法yaml文件中的train_file指定一个train.txt(名字可以改)和key.txt,文件的样例如下:
- train.txt
图片文件的绝对地址和字符label,中间用 ‘\t’ 分隔。 - key.txt
假设你这里只识别数字,key.txt里面只有一行,那么里面存的就是
里面存放的就是一行类别字符,也就是所有训练集的label加验证集的label经过去重后的结果。
- 验证时需要的数据文件说明
在训练时需要在config对应算法yaml文件中的test_file指定一个test.txt(名字可以改),该文件的样例如下:
这里和训练的一样,也是图片的绝对地址和字符label,中间用’\t’分隔。