ocr中文数据集_介绍一个字符级别标注的中文数据集

最近想写一篇论文,需要点实验数据的支撑,无奈死活找不到字符级别的标注,老天不负有心人,终于找到了这篇文章百万级字符:清华大学提出中文自然文本数据集CTW,看看这张图片就知道这个数据集标注的有多么牛逼了:

dc8278b957c11d2dac532121bee9049d.png

下面会详细介绍下这个数据集。


一、下载

数据库位于CTW dataset,下载链接在CSCG dataset,这里填入相关信息(不是注册)即可进入下载界面,有两种下载途径,如下图:

d15396343d9b96981022f8cce80276e4.png

亲测腾讯微云很坑爹,因为文件过大,所以需要保存到存储空间,但又由于文件过大,所以要购买VIP来扩充存储空间,不过相比于OneDrive,好处是不用翻q,所以建议土豪采用这种方式。

我是通过OneDrive下载的(需要翻q),直接用微软账号登入即可,登入后界面如下图:

9775a768bdb63633f7c92f011513d92e.png

不建议直接下载,很容易因为翻q的时候被打断导致全部失效。建议到各个子文件夹下,里面都是压缩包,一个个下,每个1G左右,训练图片文件夹有26个这样的压缩包,检测图片文件夹有7个,所以下起来的时候会比较烦人,得一直盯着。


二、数据集讲解

这个数据集附了一篇论文[1803.00085] Chinese Text in the Wild,这里就通过这篇论文来讲解这个数据集吧。

2.0 Abstract

数据集的定义是自然场景下中文:

We introduce Chinese Text in the Wild, a very large dataset of Chinese text in street view images.

关键点:1.自然场景;2.中文。如下图:

b0ad760cd18194b248656e1d4b9c0aa0.png

可以看到英文字母和数字是没有标识的,这点做OCR的需要注意。

数据集有超过3万张的街景图片,大约有1百万个汉字:

In this paper we provide details of a newly created dataset of Chinese text with about 1 million Chinese characters annotated by experts in over 30 thousand street view images.

2.1 Introduction

没啥要讲的。

2.2 Related work

没啥要讲的。

2.3 Chinese Text in the Wild Dataset

标注流程如图2所示:

ec822c90ae59bb026c303f15d1c6310b.png

这里提出这种标注不好的一个地方,似乎为了减轻工作量,在行标注(图2a)后标注字的过程(图2b)只用了横向的间隔,而没有纵向的缩小,比如“八”这个字明显上边框框多了。

另外还有6种属性,可以注意一下。

另外说下数据集字的分布情况,如下图:

91f39580c6f70ac55fd0f08afd72263e.png

由于多是街景图片,所以我们在路上容易见到的一些字,比如路名“路”,店名“店”等很多,所以其它自然场景下的项目要用这个数据集得慎重。

2.4 Baseline Algorithms and Performance

测试性能的,没啥想说的。

2.5 Conclusions

没啥想说的。

【已完结】

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值