中科院CASIA数据集
CASIA-OLHWDB1.0 :手写单字,171 个英文数字符号,3866 个常用汉字(其中3740个属于GB2312 - -级汉字),420套,分别为420个人书写。总共1,694,741个有效样本,分别存在420个POT文件中。
CASIA-OLHWDB1.1 :手写单字,171个英文数字符号,3755个GB2312级汉字,300套,分别为300个人书写。总共1,174,364个有效样本。分别存在300个POT文件中。
其他的数据集需要申请。
哈工大HIT-OR3C数据集
HIT-OR3C由5个子集组成 (GB1, GB2, Digit, Letter, 和Document),GB1和GB2是汉字标注库GB2312-80内2个子集的简写。GB1, GB2, Digit, 和 Letter子集已采集完成122套,共832,650 个手写汉字。Document子集包括10个从新浪网收集的文档,每个文档采集2套,共收集了20套。文档子集共有77,168个字符, 覆盖2,442个字符,其中2,286个来自GB1,97个来自GB2,49个来自Letter, 10个来自 Digit。