场景文本部分数据集


简介

在场景文本检测与识别中,往往需要大量的数据集,小白通过阅读论文,总结了比较常见的一些数据集。比如:SynthText、ICDAR系列、MSRA-TD500、COCO-Text、RCTW-17、Total-Text、CTW1500等等

一、数据集下载

二、数据集分布

1.RCTW-17

数据集特点

  1. 分辨率: 图像分辨率大小不等,小则300+,大则3000+
  2. 场景:主要是建筑、标志牌、条幅等带有文字的图像,还有一些截图、室内、证件内照片
  3. 文本属性:图像中的文本方向水平、垂直、倾斜均有,绝大多数是水平方向,弯曲方向极少数,文本大小不等,有较多的长文本

标注

  • x1,y1,x2,y2,x3,y3,x4,y4,<识别难易程度>,<“文本”>
  • x1,y1,x2,y2,x3,y3,x4,y4,<识别难易程度>,<“文本”>
  • x1,y1,x2,y2,x3,y3,x4,y4,<识别难易程度>,<“文本”>

x1,y1,x2,y2,x3,y3,x4,y4分别为左上、右上、右下、左下四个坐标,值为像素值
<识别难易程度>以0或1表示,0表示容易识别,即图像中文本清晰可见;1表示很难识别,即图像中文本较小或模糊不清楚。
<“文本”>中如果有不清楚的字符,以#表示;如果文本完全不清楚,很难识别(对应<识别难易程度>=1),则以"###"表示。

图片

2.MSRA-TD500

数据集特点:

  1. 多方向文本检测、大部分文本都在引导牌上、分辨率在1296x864到1920x1280之间
  2. 图片中 包含中英文、总共500张自然场景图片(Training 300 + Test 200)、标注以行为单位,而不是单词、每张图片都完全标注. 难以识别的有difficult标注
  3. 文本是任意定向的,文本区域是由旋转的矩形注释的,IC15中的文本长得多,因为它们是在行中注释的。

标注

  • index, defficult label, x, y, width, height, theta(弧度)
// 一般的深度学习算法,接收的矩形框都是QUAD风格的,即
//x1,y1,x2,y2,x3,y3,x4,y4,text
def rotate(angle, x, y):
    """
    基于原点的弧度旋转

    :param angle:   弧度
    :param x:       x
    :param y:       y
    :return:
    """
    rotatex = math.cos(angle) * x - math.sin(angle) * y
    rotatey = math.cos(angle) * y + math.sin(angle) * x
    return rotatex, rotatey

def xy_rorate(theta, x, y, centerx, centery):
    """
    针对中心点进行旋转

    :param theta:
    :param x:
    :param y:
    :param centerx:
    :param centery:
    :return:
    """
    r_x, r_y = rotate(theta, x - centerx, y - centery)
    return centerx+r_x, centery+r_y

def rec_rotate(x, y, width, height, theta):
    """
    传入矩形的x,y和宽度高度,弧度,转成QUAD格式
    :param x:
    :param y:
    :param width:
    :param height:
    :param theta:
    :return:
    """
    centerx = x + width / 2
    centery = y + height / 2

    x1, y1 = xy_rorate(theta, x, y, centerx, centery)
    x2, y2 = xy_rorate(theta, x+width, y, centerx, centery)
    x3, y3 = xy_rorate(theta, x, y+height, centerx, centery)
    x4, y4 = xy_rorate(theta, x+width, y+height, centerx, centery)

    return x1, y1, x2, y2, x3, y3, x4, y4

3.COCO-Text

数据集特点:

  1. 包括63686幅图像(Training 43,686+ Test 20,000),173589个文本实例,包括手写版和打印版,清晰版和非清晰版。文件大小12.58GB

4.Total-Text(弯曲文本数据集)

数据集特点:

  1. 共1555张图像,11459文本行,包含水平文本,倾斜文本,弯曲文本。文件大小441MB。大部分为英文文本,少量中文文本。训练集:1255张 测试集:300张
  2. 弯曲文本,多边形标注,词级注释。

参考:
批量处理total-text数据集格式


5.SynthText

数据集特点:

  1. 一个合成数据集,大约有80万张合成的图像组成

参考:
数据格式介绍


6.ICDAR数据集

数据集特点:
ICDAR2013(水平拉丁语数据集):

  1. 专注于场景中的水平文本,包含229张用于训练的图像和233张用于测试的图像

ICDAR2015(水平拉丁语数据集):

  1. 1000张图像用于训练,500张图像用于测试,标注为单词级别四边形 倾斜文本
  2. 均为英文文本,标注使用四边形在词级

ICDAR2017:

  1. 多语言文本检测,IC15, IC17中的文本区域也由四边形的4个顶点注释

ICDAR2019(多种语言文本数据集)


7.CTW1500数据集

数据集特点:
1.该数据集为任意文本形状的数据集Train:1000张+Test:500张,数据集大约几百兆,每张图片都有自己注释的文本,没有标记文本内容。
2. 注释文本有多少行就代表这张图片有多少个文本框,每行包含32个数字,前四个数字为该弯曲文本在整张图上的矩形框坐标值;剩下的28个值(14个点)为与左上角坐标形成的差值(图像的实例为多边形标注)

标注
在这里插入图片描述

总结

以上就是文本检测与识别的常用数据集

  • 2
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: Oxford文本描述数据集是一个用于自然语言处理任务的公开数据集。该数据集包含了一系列图像和与之对应的文本描述。数据集中的图像涵盖了各种不同的场景和对象,例如人物、动物、自然景观等等。每张图像都配有多个与之相对应的文本描述,这些描述包括了对图像内容的详细描述以及一些相关的背景知识。 Oxford文本描述数据集为研究者们提供了一个用于训练和评估自然语言处理模型的基准。研究者可以利用该数据集来开发图像描述生成模型,即通过给定一张图像生成对该图像的自然语言描述。这对于让计算机理解并生成对图像的语义描述具有重要意义。 该数据集在研究领域中被广泛应用,包括图像标注、图像搜索和多模态学习等任务。它也为自然语言处理和计算机视觉领域的交叉研究提供了一个重要的数据资源。通过利用Oxford文本描述数据集,研究者们可以更好地理解图像和语言之间的关系,并开发出更精确和智能的图像描述系统。 总而言之,Oxford文本描述数据集是一个包含图像和对应文本描述的公开数据集,用于训练和评估自然语言处理模型。它在自然语言处理和计算机视觉领域的交叉研究中具有重要的应用和价值。 ### 回答2: Oxford文本描述数据集是由牛津大学计算机视觉国际会议(Visual Geometry Group,简称VGG)发布的一个用于图像描述的数据集。该数据集包含了大约8,000个图像,每个图像都有5个描述,总共有40,000个描述文本。 这个数据集旨在推动图像和自然语言处理之间的研究和交叉领域的发展。通过提供图像和对应的文本描述,研究人员可以进行图像理解、图像生成、图像搜索和自动图像标注等任务的研究。 数据集的采集过程如下:首先,使用了Flickr图像社区中的标注工具,对图像进行了标注。然后通过众包的方式,向世界各地的工作者发放任务,并对他们所提交的描述进行了筛选和筛除。 每个图像的描述是由不同的人提供的,这样可以保证描述的多样性和有利于生成更加全面和准确的文本描述。 这个数据集在计算机视觉和自然语言处理社区中被广泛使用,可以用于图像标注、图像搜索、图像生成和图像理解等任务的研究。此外,该数据集还可以用于评估图像标注和描述生成模型的性能,以及进行不同模型之间的比较和竞争。 总之,Oxford文本描述数据集是一个包含了大量图像和对应文本描述的数据集,为图像和自然语言处理的研究提供了有价值的资源和工具。 ### 回答3: Oxford文本描述数据集是一个用于计算机视觉领域的数据集,其中包含了来自Oxford大学的图像和相应的文本描述。该数据集用于训练和评估计算机在理解和生成图像描述方面的能力。 该数据集提供了多个图像,每个图像都有多个相关的文本描述。这些描述详细描述了图像的内容、场景和对象。每个图像都有不同长度和语法结构的描述,这使得数据集中的文本描述多样且真实。 通过使用该数据集,研究人员和开发者可以训练机器学习模型来理解图像,并生成准确、连贯的文本描述。这对于诸如自动图像标注、图像搜索和图像生成等任务非常有用。 此外,Oxford文本描述数据集还提供了为图像描述评估提供参考的基准。研究人员可以使用这些基准来衡量他们的模型在理解图像和生成文本描述方面的表现。这有助于加速计算机视觉领域的研究和发展。 总而言之,Oxford文本描述数据集是一个用于训练和评估计算机在图像描述方面性能的数据集。它为研究人员和开发者提供了一个基准,用于开发和改进计算机视觉任务中的图像描述模型。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值