CTPN代码研读(一)数据集的使用以及模型

CTPN代码研读系列:

1. 数据集的使用以及模型
2. utils/prepare/label
3. utils/dataset/data_provider

(本内容为自己理解,如有错误欢迎指正)

基础信息介绍:

本系列代码为ctpn的tensorflow版本研读:

博主的论文原文研读(中文版):https://blog.csdn.net/qq_35307005/article/details/86773268
github代码地址:
https://github.com/eragonruan/text-detection-ctpn
论文原文地址:
https://arxiv.org/pdf/1609.03605.pdf
demo:
http://textdet.com/

作者参加的比赛为ICDAR2013 的MLT(自然场景多语言文本检测竞赛)
使用的数据集也是这个。

1.输入的数据集标签

gt_img_859.txt

数据集格式:
从左到右,分别为

 x1,y1,x2,y2,x3,y3,x4,y4(四个检测框的x,y坐标),语种,识别出的字符   
1192,1862,2424,1895,2405,2428,1185,2366,english,8512
846,1280,1092,1379,1088,1478,831,1390,english,###
299,1123,585,1222,536,1370,240,1291,english,###

2.输出的数据标签

img_859.txt

238,376,239,479
240,376,255,479
256,377,271,480
272,377,287,481
288,378,303,482
304,378,319,482
320,378,335,483
336,379,351,484
352,379,367,485
368,380,383,486
384,380,399,487
400,381,415,487
416,381,431,488
432,382,447,489
448,382,463,490
464,382,479,491
480,383,495,491
167,257,175,286
176,261,191,289
192,267,207,295
208,274,223,300
48,223,63,265
64,228,79,269
80,234,95,273
96,239,111,278
112,245,127,282

ICDAR2013标注格式: xmin, ymin, xmax, ymax, text

其中,xmin, ymin为左上角坐标,xmax, ymax为右下角坐标

eg:38, 43, 920, 215, “Tiredness”

ICDAR2015标注格式: x1,y1,x2,y2,x3,y3,x4,y4,text

其中,x1,y1为左上角坐标,x2,y2为右上角坐标,x3,y3为右下角坐标,x4,y4为左下角坐标。‘###’表示text难以辨认。

eg:377,117,463,117,465,130,378,130,Genaxis Theatre

eg:374,155,409,155,409,170,374,170,###

ICDAR2018标注格式: x1,y1,x2,y2,x3,y3,x4,y4,difficult,text

x1,y1为左上角坐标,x2,y2为右上角坐标,x3,y3为右下角坐标,x4,y4为左下角坐标。difficult为1表示text难以辨认,0表示容易辨认。

eg:390,902,1856,902,1856,1225,390,1225,0,“金氏眼镜”

**更多的代码信息可以见我的github项目:**ocr_learing:
https://github.com/simplify23/OCR-learnning

可以参考学习的博客:CTPN部分代码研读
https://www.cnblogs.com/fourmi/p/8980298.html

评论 16
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值