最近开始炼手写体汉字识别方面的丹,网上找了下数据集,主要有:
这俩数据集的存储形式与之前接触过的一些共有数据集的保存形式有很大的区别,对于C、C++不是很熟用Python较多的我来说踩了不少的坑(还都是CSDN、知乎、Google都搜不到的巨坑),造福下后来人吧。
首先,明确一点,由于博主此次研究的主要以联机手写体识别为主,所以主要重点关注的是CASIA数据集的OLHWDB数据以及HIT-OR3C的Online Characters。
第一坑:数据存储形式不了解
CASIA数据集其offline部分的字符集(.gnt格式数据)解析网上有相关python解析代码,但是online部分的字符集(.pot格式数据集)没找到有大神开源的解析代码。发邮件询问了数据集的作者,了解到了.pot格式的数据集要按照一定的规则依次读取相应的字节来解析(规则详见官网),并且作者还慷慨地提供了官方可视化工具的C++源码(让我对照着用Python去解析,奈何C++水平不够卡在最后一步,如果后续解析成功了会开源解析代码)
由于HIT-OR3C数据集的online部分字符集的存储形式与CASIA的OLHWDB存储格式类似,并且提供了File Format Specification以及C++,JAVA,Matlab三种语言的解析代码(奈何还是没有Python...还好博主本科Matlab用的多看得懂,才得以最终用Python解析成功)