【OCR炼丹】解析HIT-OR3C数据集online部分Python版完整代码

最近开始炼手写体汉字识别方面的丹,网上找了下数据集,主要有:

  1. 中科院自动化研究所开源的CASIA数据集(下载链接地址
  2. 哈工大开源的HIT-OR3C数据集(下载链接地址

这俩数据集的存储形式与之前接触过的一些共有数据集的保存形式有很大的区别,对于C、C++不是很熟用Python较多的我来说踩了不少的坑(还都是CSDN、知乎、Google都搜不到的巨坑),造福下后来人吧。

首先,明确一点,由于博主此次研究的主要以联机手写体识别为主,所以主要重点关注的是CASIA数据集的OLHWDB数据以及HIT-OR3C的Online Characters


第一坑:数据存储形式不了解

CASIA数据集其offline部分的字符集(.gnt格式数据)解析网上有相关python解析代码,但是online部分的字符集(.pot格式数据集)没找到有大神开源的解析代码。发邮件询问了数据集的作者,了解到了.pot格式的数据集要按照一定的规则依次读取相应的字节来解析(规则详见官网),并且作者还慷慨地提供了官方可视化工具的C++源码(让我对照着用Python去解析,奈何C++水平不够卡在最后一步,如果后续解析成功了会开源解析代码)

由于HIT-OR3C数据集的online部分字符集的存储形式与CASIA的OLHWDB存储格式类似,并且提供了File Format Specification以及C++,JAVA,Matlab三种语言的解析代码(奈何还是没有Python...还好博主本科Matlab用的多看得懂,才得以最终用Python解析成功)

  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 4
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值