场景文本部分数据集

最新推荐文章于 2024-09-12 12:12:19 发布

专治bug的码农

最新推荐文章于 2024-09-12 12:12:19 发布

阅读量3.6k

点赞数 2

分类专栏：场景文本

本文链接：https://blog.csdn.net/qq_41939958/article/details/113462037

版权

文章目录（持续更新）

简介
一、数据集下载
二、数据集分布
总结

简介

在场景文本检测与识别中，往往需要大量的数据集，小白通过阅读论文，总结了比较常见的一些数据集。比如：SynthText、ICDAR系列、MSRA-TD500、COCO-Text、RCTW-17、Total-Text、CTW1500等等

一、数据集下载

二、数据集分布

1.RCTW-17

数据集特点

分辨率：图像分辨率大小不等，小则300+，大则3000+
场景：主要是建筑、标志牌、条幅等带有文字的图像，还有一些截图、室内、证件内照片
文本属性：图像中的文本方向水平、垂直、倾斜均有，绝大多数是水平方向，弯曲方向极少数，文本大小不等，有较多的长文本

标注

x1,y1,x2,y2,x3,y3,x4,y4,<识别难易程度>,<“文本”>
x1,y1,x2,y2,x3,y3,x4,y4,<识别难易程度>,<“文本”>
x1,y1,x2,y2,x3,y3,x4,y4,<识别难易程度>,<“文本”>
…

x1,y1,x2,y2,x3,y3,x4,y4分别为左上、右上、右下、左下四个坐标，值为像素值
<识别难易程度>以0或1表示，0表示容易识别，即图像中文本清晰可见；1表示很难识别，即图像中文本较小或模糊不清楚。
<“文本”>中如果有不清楚的字符，以#表示；如果文本完全不清楚，很难识别(对应<识别难易程度>=1)，则以"###"表示。

2.MSRA-TD500

数据集特点：

多方向文本检测、大部分文本都在引导牌上、分辨率在1296x864到1920x1280之间
图片中包含中英文、总共500张自然场景图片(Training 300 + Test 200)、标注以行为单位，而不是单词、每张图片都完全标注. 难以识别的有difficult标注
文本是任意定向的，文本区域是由旋转的矩形注释的，IC15中的文本长得多，因为它们是在行中注释的。

标注

index, defficult label, x, y, width, height, theta(弧度)

// 一般的深度学习算法，接收的矩形框都是QUAD风格的，即
//x1,y1,x2,y2,x3,y3,x4,y4,text
def rotate(angle

最低0.47元/天解锁文章