一、开发背景
随着近几年来计算机算力的不断提升,机器学习也迎来了爆发式的发展,图像识别作为机器学习最典型也是最主要的应用之一,目前应用前景火热。
机器学习最重要的一步就是获取数据集,没有一个坚实的数据集做支撑是无法训练出好用的模型的。因此,本文实现了一个脚本,能够生成任意数量,任意字体,以及带有各种模糊及噪声预处理的图像,用这些图像作为训练集是再合适不过了。
二、脚本效果
1、IDE中的运行界面
2、生成的图像
每个文件夹存放一个汉字,即一个类别:
打开其中一个文件夹,里面存放的是当前类别汉字的各个字体以及各种预处理后的图像文件。
三、具体开发
1、功能需求
1. 根据用户指定的汉字字符生成图像文件
2. 用户可自行更改图像数量及图像尺寸
3. 用户可自行更改预处理效果
2、实际项目
(1)项目结构
项目文件夹ImgGenerator下的fonts文件夹用于存放ttf字体文件。
outputs文件夹用于存放输出图像。
config.py中设置相关路径信息。
draw_chara.py是实际的脚本。
(2)实现思路:
设定需要输出的字符