caffe实战（二）：汉字识别----------中文文字数据集的产生

最新推荐文章于 2024-06-12 20:18:42 发布

Lucy girl

最新推荐文章于 2024-06-12 20:18:42 发布

阅读量1.1k

点赞数 2

分类专栏：深度学习文章标签： caffe实战

本文链接：https://blog.csdn.net/ZhangShaoYan111/article/details/104054036

版权

本文介绍如何利用Caffe进行汉字识别，详细阐述了从收集3500个常见汉字及繁体字，到收集多种字体文件，再到使用PIL生成汉字图像并划分训练集与测试集的过程。

摘要由CSDN通过智能技术生成

https://www.jianshu.com/writer#/notebooks/24210100/notes/28352164 上篇我们介绍了caffe环境的搭建，这次我们开始真正的caffe实战。
模型的训练当然需要一个好的文字集，我们在网上找了好久都没有找到适合的印刷体汉字数据集，于是，我们决定自己生成用于训练和测试的汉字数据集。
一、汉字收集
这要看你需要识别什么汉字了，由于比赛需要，我们收集了常见的3500个汉字以及一些繁体字。如图：

汉字.JPG

二、收集需要用到的字体文件
考虑到我们遇到的文字不一定是单一的楷书或宋体，我们又进一步收集了多种字体文件，来生成不同字体的汉字数据集。以下是我们收集的9种字体文件，包括仿宋、黑体、斜体等等：

字体.JPG

三、生成字体图像，存储在规定的目录下
首先是定义好输入参数，其中包括输出目录、字体目录、测试集大小、图像尺寸等等。以下为部分源码：
description = '''
deep_ocr_make_caffe_dataset --out_caffe_dir /root/data/caffe_dataset
--font_dir /root/workspace/deep_ocr_fonts/chinese_fonts
--width 30 --height 30 --margin 4 --langs lower_eng
'''

parser = argparse.ArgumentParser(
    description=description, formatter_class=RawTextHelpFormatter)
parser.add_argument('--out_caffe_dir', dest='out_caffe_dir',
                    default=None, required=True,

最低0.47元/天解锁文章

Lucy girl

关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
2
评论
caffe实战（二）：汉字识别----------中文文字数据集的产生

https://www.jianshu.com/writer#/notebooks/24210100/notes/28352164上篇我们介绍了caffe环境的搭建，这次我们开始真正的caffe实战。模型的训练当然需要一个好的文字集，我们在网上找了好久都没有找到适合的印刷体汉字数据集，于是，我们决定自己生成用于训练和测试的汉字数据集。一、汉字收集这要看你需要识别什么汉字了，由于比赛需要，我...
复制链接

扫一扫

专栏目录