文章目录(持续更新)
简介
在场景文本检测与识别中,往往需要大量的数据集,小白通过阅读论文,总结了比较常见的一些数据集。比如:SynthText、ICDAR系列、MSRA-TD500、COCO-Text、RCTW-17、Total-Text、CTW1500等等一、数据集下载
二、数据集分布
1.RCTW-17
数据集特点
- 分辨率: 图像分辨率大小不等,小则300+,大则3000+
- 场景:主要是建筑、标志牌、条幅等带有文字的图像,还有一些截图、室内、证件内照片
- 文本属性:图像中的文本方向水平、垂直、倾斜均有,绝大多数是水平方向,弯曲方向极少数,文本大小不等,有较多的长文本
标注
- x1,y1,x2,y2,x3,y3,x4,y4,<识别难易程度>,<“文本”>
- x1,y1,x2,y2,x3,y3,x4,y4,<识别难易程度>,<“文本”>
- x1,y1,x2,y2,x3,y3,x4,y4,<识别难易程度>,<“文本”>
- …
x1,y1,x2,y2,x3,y3,x4,y4分别为左上、右上、右下、左下四个坐标,值为像素值
<识别难易程度>以0或1表示,0表示容易识别,即图像中文本清晰可见;1表示很难识别,即图像中文本较小或模糊不清楚。
<“文本”>中如果有不清楚的字符,以#表示;如果文本完全不清楚,很难识别(对应<识别难易程度>=1),则以"###"表示。
2.MSRA-TD500
数据集特点:
- 多方向文本检测、大部分文本都在引导牌上、分辨率在1296x864到1920x1280之间
- 图片中 包含中英文、总共500张自然场景图片(Training 300 + Test 200)、标注以行为单位,而不是单词、每张图片都完全标注. 难以识别的有difficult标注
- 文本是任意定向的,文本区域是由旋转的矩形注释的,IC15中的文本长得多,因为它们是在行中注释的。
标注
- index, defficult label, x, y, width, height, theta(弧度)
// 一般的深度学习算法,接收的矩形框都是QUAD风格的,即
//x1,y1,x2,y2,x3,y3,x4,y4,text
def rotate(angle, x, y):
"""
基于原点的弧度旋转
:param angle: 弧度
:param x: x
:param y: y
:return:
"""
rotatex = math.cos(angle) * x - math.sin(angle) * y
rotatey = math.cos(angle) * y + math.sin(angle) * x
return rotatex, rotatey
def xy_rorate(theta, x, y, centerx, centery):
"""
针对中心点进行旋转
:param theta:
:param x:
:param y:
:param centerx:
:param centery:
:return:
"""
r_x, r_y = rotate(theta, x - centerx, y - centery)
return centerx+r_x, centery+r_y
def rec_rotate(x, y, width, height, theta):
"""
传入矩形的x,y和宽度高度,弧度,转成QUAD格式
:param x:
:param y:
:param width:
:param height:
:param theta:
:return:
"""
centerx = x + width / 2
centery = y + height / 2
x1, y1 = xy_rorate(theta, x, y, centerx, centery)
x2, y2 = xy_rorate(theta, x+width, y, centerx, centery)
x3, y3 = xy_rorate(theta, x, y+height, centerx, centery)
x4, y4 = xy_rorate(theta, x+width, y+height, centerx, centery)
return x1, y1, x2, y2, x3, y3, x4, y4
3.COCO-Text
数据集特点:
- 包括63686幅图像(Training 43,686+ Test 20,000),173589个文本实例,包括手写版和打印版,清晰版和非清晰版。文件大小12.58GB
4.Total-Text(弯曲文本数据集)
数据集特点:
- 共1555张图像,11459文本行,包含水平文本,倾斜文本,弯曲文本。文件大小441MB。大部分为英文文本,少量中文文本。训练集:1255张 测试集:300张
- 弯曲文本,多边形标注,词级注释。
5.SynthText
数据集特点:
- 一个合成数据集,大约有80万张合成的图像组成
参考:
数据格式介绍
6.ICDAR数据集
数据集特点:
ICDAR2013(水平拉丁语数据集):
- 专注于场景中的水平文本,包含229张用于训练的图像和233张用于测试的图像
ICDAR2015(水平拉丁语数据集):
- 1000张图像用于训练,500张图像用于测试,标注为单词级别四边形 倾斜文本
- 均为英文文本,标注使用四边形在词级
ICDAR2017:
- 多语言文本检测,IC15, IC17中的文本区域也由四边形的4个顶点注释
ICDAR2019(多种语言文本数据集)
7.CTW1500数据集
数据集特点:
1.该数据集为任意文本形状的数据集Train:1000张+Test:500张,数据集大约几百兆,每张图片都有自己注释的文本,没有标记文本内容。
2. 注释文本有多少行就代表这张图片有多少个文本框,每行包含32个数字,前四个数字为该弯曲文本在整张图上的矩形框坐标值;剩下的28个值(14个点)为与左上角坐标形成的差值(图像的实例为多边形标注)
标注
总结
以上就是文本检测与识别的常用数据集