CTPN代码研读系列:
1. 数据集的使用以及模型
2. utils/prepare/label
3. utils/dataset/data_provider
(本内容为自己理解,如有错误欢迎指正)
基础信息介绍:
本系列代码为ctpn的tensorflow版本研读:
博主的论文原文研读(中文版):https://blog.csdn.net/qq_35307005/article/details/86773268
github代码地址:
https://github.com/eragonruan/text-detection-ctpn
论文原文地址:
https://arxiv.org/pdf/1609.03605.pdf
demo:
http://textdet.com/
作者参加的比赛为ICDAR2013 的MLT(自然场景多语言文本检测竞赛)
使用的数据集也是这个。
1.输入的数据集标签
gt_img_859.txt
数据集格式:
从左到右,分别为
x1,y1,x2,y2,x3,y3,x4,y4(四个检测框的x,y坐标),语种,识别出的字符
1192,1862,2424,1895,2405,2428,1185,2366,english,8512
846,1280,1092,1379,1088,1478,831,1390,english,###
299,1123,585,1222,536,1370,240,1291,english,###
2.输出的数据标签
img_859.txt
238,376,239,479
240,376,255,479
256,377,271,480
272,377,287,481
288,378,303,482
304,378,319,482
320,378,335,483
336,379,351,484
352,379,367,485
368,380,383,486
384,380,399,487
400,381,415,487
416,381,431,488
432,382,447,489
448,382,463,490
464,382,479,491
480,383,495,491
167,257,175,286
176,261,191,289
192,267,207,295
208,274,223,300
48,223,63,265
64,228,79,269
80,234,95,273
96,239,111,278
112,245,127,282
ICDAR2013标注格式: xmin, ymin, xmax, ymax, text
其中,xmin, ymin为左上角坐标,xmax, ymax为右下角坐标
eg:38, 43, 920, 215, “Tiredness”
ICDAR2015标注格式: x1,y1,x2,y2,x3,y3,x4,y4,text
其中,x1,y1为左上角坐标,x2,y2为右上角坐标,x3,y3为右下角坐标,x4,y4为左下角坐标。‘###’表示text难以辨认。
eg:377,117,463,117,465,130,378,130,Genaxis Theatre
eg:374,155,409,155,409,170,374,170,###
ICDAR2018标注格式: x1,y1,x2,y2,x3,y3,x4,y4,difficult,text
x1,y1为左上角坐标,x2,y2为右上角坐标,x3,y3为右下角坐标,x4,y4为左下角坐标。difficult为1表示text难以辨认,0表示容易辨认。
eg:390,902,1856,902,1856,1225,390,1225,0,“金氏眼镜”
**更多的代码信息可以见我的github项目:**ocr_learing:
https://github.com/simplify23/OCR-learnning
可以参考学习的博客:CTPN部分代码研读
https://www.cnblogs.com/fourmi/p/8980298.html