自然场景文字数据集

最新推荐文章于 2025-04-22 14:33:42 发布

Alocus_

最新推荐文章于 2025-04-22 14:33:42 发布

阅读量1.7k

点赞数

分类专栏：深度学习文章标签： python 深度学习人工智能

本文链接：https://blog.csdn.net/Crystal_remember/article/details/119828279

版权

深度学习专栏收录该内容

16 篇文章

订阅专栏

自然场景数据集有SVT（Street View Text）数据集[1]、MSRA-TD（MSRA
Text Detection）数据集[2]、Chars74K数据集[3]、COCO-Text（Common Objects in
Context）数据集[4]、ICDAR 比赛数据集等。其中Street View Text数据集所有图像来
源于Google街景视图，图像的分辨率较低，文字变化较大。该数据集包括350张街
景图像，多数图像大小为1280x1024左右，该数据集来至于真实的街景场景，在自然
场景检测与识别中被广泛应用。MSRA-TD数据集采用摄像机手动获取，图像主要包
括室内图像，办公室和商场，和室外，街道，场景图像。室内图像主要关注标识、警
告牌和门牌等，户外图像多为导游标识、广告牌和商店名称等。MSRA-TD数据集共
包括500张场景图像，图像大小从1296x864到1920x1280不等。Chars74K数据集是
一个经典的字符识别数据集，主要包括英文字符和Kannada字符，该数据共有样本
74000张，其中包含英文字符和数字字符共62个类别，其中7705张英文字符数据来
源于场景图像，62992张字符数据集由计算机字体变换合成，与其他数据集不同的是
该数据集包含了手写英文字符。COCO-Text数据集是以MS COCO（Microsoft Common
Objects in Context）数据集为基础而拓展的，COCO-Text数据集共有63686张场景图
像，共计173589条文本信息，该数据集中的每张图像都包含多个文本实例，文本又
包括机器打印和手写文本，不仅仅包含英文字符还保护非英文的字符数据集。ICDAR
比赛数据集主要包括ICDAR 2003数据集、ICDAR 2005数据集和ICDAR 2011数据
集。ICDAR比赛公开数据集分为字符检测数据集和字符识别数据集，以ICDAR 2011
数据集为例，ICDAR 2011文本定位数据集中包含测试样本255张彩色图片，大小从307x93到3888x2592不等。

[1]Wang K, Babenko B, Belongie S. End-to-end scene text recognition[C]//Computer Vision
(ICCV), 2011 IEEE International Conference on. IEEE, 2011: 1457-1464.
[2]Yao C, Bai X, Liu W, et al. Detecting texts of arbitrary orientations in natural
images[C]//Computer Vision and Pattern Recognition (CVPR), 2012 IEEE Conference on. IEEE,
2012: 1083-1090.
[3]de Campos T E, Babu B R, Varma M. Character Recognition in Natural Images[C]//VISAPP (2).
2009: 273-280.
[4]Veit A, Matera T, Neumann L, et al. Coco-text: Dataset and benchmark for text detection and
recognition in natural images[J]. arXiv preprint arXiv:1601.07140, 2016.