在申请书中介绍了数据集的基本情况:
> CASIA-HWDB 和 CASIA-OLHWDB 数据库由中科院自动化研究所在 2007-2010 年间收集, 均各自包含 1,020 人书写的脱机(联机)手写中文单字样本和手写文本, 用 Anoto 笔在点阵纸上书写后扫描、分割得到。
CASIA-HWDB 手写单字样本分为三个数据库:HWDB1.0~1.2,手写文本也分为三个数据库: HWDB2.0~2.2。
HWDB1.0~1.2 总共有 3,895,135 个手写单字样本,分属 7,356 类(7,185 个汉字和 171 个英文字母、数字、符号)。
HWDB2.0~2.2 总共有 5,091 页图像,分割为 52,230 个文本行和 1,349,414 个文字。所有文字和文本样本均存为灰度图像(背景已去除),按书写人序号分别存储。
CASIA-OLHWDB 手写单字样本分为三个数据库:OLHWDB1.0~1.2,手写文本也分为三个数据库: OLHWDB2.0~2.2。
OLHWDB1.0~1.2 总共有 3,912,017 个手写单字样本,分属 7,356 类(7,185 个汉字和 171 个英文字母、数字、符号)。
OLHWDB2.0~2.2 总共有 5,092 页手写文本,分割为 52,221 个文本行和 1,348,904 个文字。所有文字和文本样本均存为笔划坐标序列,按书写人序号分别存储。
> 学术研究的用途包括:手写文档分割、字符识别、字符串识别、文档检索、书写人适应、书写人鉴别等。
我将 Data Download 下的数据集都下载到了 root 目录下:
import os
root = 'E:/OCR/CASIA/'
os.listdir(root)
['1.0test-gb1.rar',
'1.0test-GB1.zip',
'1.0train-gb1.rar',
'1.0train-GB1.zip',
'competition-dgr.zip',
'competition-gnt.zip',
'competition_POT.zip',
'Competition_ptts.zip',
'HWDB1.0trn.zip',
'HWDB1.0tst.zip',
'HWDB1.1trn.zip',
'HWDB1.1trn_gnt.zip',
'HWDB1.1tst.zip',
'HWDB1.1tst_gnt.zip',
'mpf',
'OLHWDB1.0trn.zip',
'OLHWDB1.0tst.zip',
'OLHWDB1.1trn.zip',
'OLHWDB1.1trn_pot.zip',
'OLHW