https://www.jianshu.com/writer#/notebooks/24210100/notes/28352164 上篇我们介绍了caffe环境的搭建,这次我们开始真正的caffe实战。
模型的训练当然需要一个好的文字集,我们在网上找了好久都没有找到适合的印刷体汉字数据集,于是,我们决定自己生成用于训练和测试的汉字数据集。
一、汉字收集
这要看你需要识别什么汉字了,由于比赛需要,我们收集了常见的3500个汉字以及一些繁体字。如图:
汉字.JPG
二、收集需要用到的字体文件
考虑到我们遇到的文字不一定是单一的楷书或宋体,我们又进一步收集了多种字体文件,来生成不同字体的汉字数据集。以下是我们收集的9种字体文件,包括仿宋、黑体、斜体等等:
字体.JPG
三、生成字体图像,存储在规定的目录下
首先是定义好输入参数,其中包括输出目录、字体目录、测试集大小、图像尺寸等等。以下为部分源码:
description = '''
deep_ocr_make_caffe_dataset --out_caffe_dir /root/data/caffe_dataset
--font_dir /root/workspace/deep_ocr_fonts/chinese_fonts
--width 30 --height 30 --margin 4 --langs lower_eng
'''
parser = argparse.ArgumentParser(
description=description, formatter_class=RawTextHelpFormatter)
parser.add_argument('--out_caffe_dir', dest='out_caffe_dir',
default=None, required=True,