文章目录(持续更新)
简介
在场景文本检测与识别中,往往需要大量的数据集,小白通过阅读论文,总结了比较常见的一些数据集。比如:SynthText、ICDAR系列、MSRA-TD500、COCO-Text、RCTW-17、Total-Text、CTW1500等等一、数据集下载
二、数据集分布
1.RCTW-17
数据集特点
- 分辨率: 图像分辨率大小不等,小则300+,大则3000+
- 场景:主要是建筑、标志牌、条幅等带有文字的图像,还有一些截图、室内、证件内照片
- 文本属性:图像中的文本方向水平、垂直、倾斜均有,绝大多数是水平方向,弯曲方向极少数,文本大小不等,有较多的长文本
标注
- x1,y1,x2,y2,x3,y3,x4,y4,<识别难易程度>,<“文本”>
- x1,y1,x2,y2,x3,y3,x4,y4,<识别难易程度>,<“文本”>
- x1,y1,x2,y2,x3,y3,x4,y4,<识别难易程度>,<“文本”>
- …
x1,y1,x2,y2,x3,y3,x4,y4分别为左上、右上、右下、左下四个坐标,值为像素值
<识别难易程度>以0或1表示,0表示容易识别,即图像中文本清晰可见;1表示很难识别,即图像中文本较小或模糊不清楚。
<“文本”>中如果有不清楚的字符,以#表示;如果文本完全不清楚,很难识别(对应<识别难易程度>=1),则以"###"表示。
2.MSRA-TD500
数据集特点:
- 多方向文本检测、大部分文本都在引导牌上、分辨率在1296x864到1920x1280之间
- 图片中 包含中英文、总共500张自然场景图片(Training 300 + Test 200)、标注以行为单位,而不是单词、每张图片都完全标注. 难以识别的有difficult标注
- 文本是任意定向的,文本区域是由旋转的矩形注释的,IC15中的文本长得多,因为它们是在行中注释的。
标注
- index, defficult label, x, y, width, height, theta(弧度)
// 一般的深度学习算法,接收的矩形框都是QUAD风格的,即
//x1,y1,x2,y2,x3,y3,x4,y4,text
def rotate(angle