python识别手写文字_使用 python 获取 CASIA 脱机和在线手写汉字库

最新推荐文章于 2024-06-03 13:04:28 发布

weixin_39564755

最新推荐文章于 2024-06-03 13:04:28 发布

阅读量791

点赞数

文章标签： python识别手写文字

本文介绍了如何使用Python处理CASIA的离线和在线手写汉字数据库，包括数据集的基本信息、下载过程以及将数据转换为HDF5格式的详细步骤。通过API封装，实现了数据的读取、处理和存储，便于后续的手写汉字识别研究。

摘要由CSDN通过智能技术生成

在申请书中介绍了数据集的基本情况：

> CASIA-HWDB 和 CASIA-OLHWDB 数据库由中科院自动化研究所在 2007-2010 年间收集，均各自包含 1,020 人书写的脱机（联机）手写中文单字样本和手写文本，用 Anoto 笔在点阵纸上书写后扫描、分割得到。

CASIA-HWDB 手写单字样本分为三个数据库：HWDB1.0~1.2，手写文本也分为三个数据库： HWDB2.0~2.2。

HWDB1.0~1.2 总共有 3,895,135 个手写单字样本，分属 7,356 类（7,185 个汉字和 171 个英文字母、数字、符号）。

HWDB2.0~2.2 总共有 5,091 页图像，分割为 52,230 个文本行和 1,349,414 个文字。所有文字和文本样本均存为灰度图像（背景已去除），按书写人序号分别存储。

CASIA-OLHWDB 手写单字样本分为三个数据库：OLHWDB1.0~1.2，手写文本也分为三个数据库： OLHWDB2.0~2.2。

OLHWDB1.0~1.2 总共有 3,912,017 个手写单字样本，分属 7,356 类（7,185 个汉字和 171 个英文字母、数字、符号）。

OLHWDB2.0~2.2 总共有 5,092 页手写文本，分割为 52,221 个文本行和 1,348,904 个文字。所有文字和文本样本均存为笔划坐标序列，按书写人序号分别存储。

> 学术研究的用途包括：手写文档分割、字符识别、字符串识别、文档检索、书写人适应、书写人鉴别等。

我将 Data Download 下的数据集都下载到了 root 目录下：

import os

root = 'E:/OCR/CASIA/'

os.listdir(root)

['1.0test-gb1.rar',

'1.0test-GB1.zip',

'1.0train-gb1.rar',

'1.0train-GB1.zip',

'competition-dgr.zip',

'competition-gnt.zip',

'competition_POT.zip',

'Competition_ptts.zip',

'HWDB1.0trn.zip',

'HWDB1.0tst.zip',

'HWDB1.1trn.zip',

'HWDB1.1trn_gnt.zip',

'HWDB1.1tst.zip',

'HWDB1.1tst_gnt.zip',

'mpf',

'OLHWDB1.0trn.zip',

'OLHWDB1.0tst.zip',

'OLHWDB1.1trn.zip',

'OLHWDB1.1trn_pot.zip',

'OLHW

最低0.47元/天解锁文章

weixin_39564755

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
python识别手写文字_使用 python 获取 CASIA 脱机和在线手写汉字库

在申请书中介绍了数据集的基本情况：> CASIA-HWDB 和 CASIA-OLHWDB 数据库由中科院自动化研究所在 2007-2010 年间收集，均各自包含 1,020 人书写的脱机（联机）手写中文单字样本和手写文本，用 Anoto 笔在点阵纸上书写后扫描、分割得到。CASIA-HWDB 手写单字样本分为三个数据库：HWDB1.0~1.2，手写文本也分为三个数据库： HWDB2.0~2....
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。