caffe实战(二):汉字识别----------中文文字数据集的产生

本文介绍如何利用Caffe进行汉字识别,详细阐述了从收集3500个常见汉字及繁体字,到收集多种字体文件,再到使用PIL生成汉字图像并划分训练集与测试集的过程。
摘要由CSDN通过智能技术生成

https://www.jianshu.com/writer#/notebooks/24210100/notes/28352164 上篇我们介绍了caffe环境的搭建,这次我们开始真正的caffe实战。
模型的训练当然需要一个好的文字集,我们在网上找了好久都没有找到适合的印刷体汉字数据集,于是,我们决定自己生成用于训练和测试的汉字数据集。
一、汉字收集
这要看你需要识别什么汉字了,由于比赛需要,我们收集了常见的3500个汉字以及一些繁体字。如图:

汉字.JPG


二、收集需要用到的字体文件
考虑到我们遇到的文字不一定是单一的楷书或宋体,我们又进一步收集了多种字体文件,来生成不同字体的汉字数据集。以下是我们收集的9种字体文件,包括仿宋、黑体、斜体等等:

字体.JPG


三、生成字体图像,存储在规定的目录下
首先是定义好输入参数,其中包括输出目录、字体目录、测试集大小、图像尺寸等等。以下为部分源码:
description = '''
deep_ocr_make_caffe_dataset --out_caffe_dir /root/data/caffe_dataset
--font_dir /root/workspace/deep_ocr_fonts/chinese_fonts
--width 30 --height 30 --margin 4 --langs lower_eng
'''

 

parser = argparse.ArgumentParser(
    description=description, formatter_class=RawTextHelpFormatter)
parser.add_argument('--out_caffe_dir', dest='out_caffe_dir',
                    default=None, required=True,
       
  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值