最近想写一篇论文,需要点实验数据的支撑,无奈死活找不到字符级别的标注,老天不负有心人,终于找到了这篇文章百万级字符:清华大学提出中文自然文本数据集CTW,看看这张图片就知道这个数据集标注的有多么牛逼了:
下面会详细介绍下这个数据集。
一、下载
数据库位于CTW dataset,下载链接在CSCG dataset,这里填入相关信息(不是注册)即可进入下载界面,有两种下载途径,如下图:
亲测腾讯微云很坑爹,因为文件过大,所以需要保存到存储空间,但又由于文件过大,所以要购买VIP来扩充存储空间,不过相比于OneDrive,好处是不用翻q,所以建议土豪采用这种方式。
我是通过OneDrive下载的(需要翻q),直接用微软账号登入即可,登入后界面如下图:
不建议直接下载,很容易因为翻q的时候被打断导致全部失效。建议到各个子文件夹下,里面都是压缩包,一个个下,每个1G左右,训练图片文件夹有26个这样的压缩包,检测图片文件夹有7个,所以下起来的时候会比较烦人,得一直盯着。
二、数据集讲解
这个数据集附了一篇论文[1803.00085] Chinese Text in the Wild,这里就通过这篇论文来讲解这个数据集吧。
2.0 Abstract
数据集的定义是自然场景下中文:
We introduce Chinese Text in the Wild, a very large dataset of Chinese text in street view images.
关键点:1.自然场景;2.中文。如下图:
可以看到英文字母和数字是没有标识的,这点做OCR的需要注意。
数据集有超过3万张的街景图片,大约有1百万个汉字:
In this paper we provide details of a newly created dataset of Chinese text with about 1 million Chinese characters annotated by experts in over 30 thousand street view images.
2.1 Introduction
没啥要讲的。
2.2 Related work
没啥要讲的。
2.3 Chinese Text in the Wild Dataset
标注流程如图2所示:
这里提出这种标注不好的一个地方,似乎为了减轻工作量,在行标注(图2a)后标注字的过程(图2b)只用了横向的间隔,而没有纵向的缩小,比如“八”这个字明显上边框框多了。
另外还有6种属性,可以注意一下。
另外说下数据集字的分布情况,如下图:
由于多是街景图片,所以我们在路上容易见到的一些字,比如路名“路”,店名“店”等很多,所以其它自然场景下的项目要用这个数据集得慎重。
2.4 Baseline Algorithms and Performance
测试性能的,没啥想说的。
2.5 Conclusions
没啥想说的。
【已完结】