python 汉字识别训练数据生成_中文识别数据集生成脚本

一、开发背景随着近几年来计算机算力的不断提升,机器学习也迎来了爆发式的发展,图像识别作为机器学习最典型也是最主要的应用之一,目前应用前景火热。机器学习最重要的一步就是获取数据集,没有一个坚实的数据集做支撑是无法训练出好用的模型的。因此,本文实现了一个脚本,能够生成任意数量,任意字体,以及带有各种模糊及噪声预处理的图像,用这些图像作为训练集是再合适不过了。二、脚本效果1、IDE中的运行界面2、生成的...
摘要由CSDN通过智能技术生成

一、开发背景

随着近几年来计算机算力的不断提升,机器学习也迎来了爆发式的发展,图像识别作为机器学习最典型也是最主要的应用之一,目前应用前景火热。

机器学习最重要的一步就是获取数据集,没有一个坚实的数据集做支撑是无法训练出好用的模型的。因此,本文实现了一个脚本,能够生成任意数量,任意字体,以及带有各种模糊及噪声预处理的图像,用这些图像作为训练集是再合适不过了。

二、脚本效果

1、IDE中的运行界面

2、生成的图像

每个文件夹存放一个汉字,即一个类别:

打开其中一个文件夹,里面存放的是当前类别汉字的各个字体以及各种预处理后的图像文件。

三、具体开发

1、功能需求

1. 根据用户指定的汉字字符生成图像文件

2. 用户可自行更改图像数量及图像尺寸

3. 用户可自行更改预处理效果

2、实际项目

(1)项目结构

项目文件夹ImgGenerator下的fonts文件夹用于存放ttf字体文件。

outputs文件夹用于存放输出图像。

config.py中设置相关路径信息。

draw_chara.py是实际的脚本。

(2)实现思路:

设定需要输出的字符

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值