【数据集】英文手写字母数据集处理

这是kaggle上的一个英文大写字母手写数据集:A-Z Handwritten Alphabets

  • 只包含大写字母,图片尺寸为 28 × 28 28\times28 28×28 ,每个字母都放置在中心 20 × 20 20\times20 20×20 的区域。
  • 以灰度图的形式存储。
  • csv 文件一行的第一列为类别,后续 28 × 28 = 784 28\times28=784 28×28=784 列为像素值。

下面的代码展示将 csv 文件转换成图片并保存在结构化文件夹里:

import os 
import numpy as np
import pandas as pd
import cv2

dataset_dir = f'.../archive/A_Z Handwritten Data'

def csv2img(dataset):
	for row in range(len(dataset)):
		line = dataset.iloc[row]

		save_dir = os.path.join(dataset_dir, chr(ord('A') + line[0]))
		os.makedirs(save_dir, exist_ok=True)
		
		img = line[1:].values
		img_np = 255 - np.array(img.reshape((28, 28)), dtype=np.uint8)
		
		cv2.imwrite(os.path.join(save_dir, f'{i}.png'), img_np)

if __name__ == '__main__':
	data = pd.read_csv(os.path.join(dataset_dir, 'A_Z Handwritten Data.csv'))
	csv2img(data)

fertig!

  • 1
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 要手写英文mnist格式数据集,首先需要了解mnist数据集的结构和特征。 mnist数据集是一个由60000张手写数字图片组成的训练集和10000张手写数字图片组成的测试集。每张图片的尺寸是28x28像素,每个像素的灰度值范围在0到255之间。每张图片都有一个与之对应的标签,标签记录了图片所表示的数字。 对于手写英文mnist格式数据集,我们可以采用相同的结构和特征。我们需要准备一系列的手写英文字符图片,并为每个字符图片添加相应的标签。 首先,我们可以准备一些纸张,并用铅笔或者钢笔手写英文字母,每个字母都要占据一张纸张。然后,我们可以使用相机、扫描仪或者手机将纸张上的字母拍摄或者扫描下来,并保存为图片文件。 接下来,我们可以使用图像处理软件,如Adobe Photoshop或者GIMP,对拍摄或者扫描得到的图片进行处理。我们可以裁剪和调整图片的尺寸,使其变为28x28像素,并将灰度值范围控制在0到255之间。 最后,我们需要为每个手写英文字母图片添加相应的标签。我们可以为每个字符分配一个唯一的标签,并将所有的标签和对应的图片保存到一个数据集文件中。这个数据集文件可以采用mnist数据集的格式,其中包括图片的尺寸、灰度值范围以及每个图片的标签等信息。 总结起来,手写英文mnist格式数据集的制作过程包括手写字符、拍摄或者扫描图片、图片处理和添加标签等步骤。通过这些步骤,我们可以得到一个符合mnist数据集格式的手写英文字符数据集。这个数据集可以用于机器学习任务,如字符识别或者手写字母分类等。 ### 回答2: 手写英文MNIST格式数据集是用来训练机器学习模型或者评估算法性能的数据集,它提供了一组手写英文字母的图像和对应的标签。这是一个类似于手写数字MNIST数据集的扩展版本,但是这次我们要手写英文字母手写英文MNIST数据集由26个大小相同的灰度图像组成,每个图像代表一个大写字母。每个图像被编码为一个28x28的灰度图像,其中像素的亮度值表示字母的颜色强度。每个图像都有一个对应的标签,表示字母的类别。标签是一个整数,从0到25,对应于每个字母字母表中的顺序,例如,A对应标签0,B对应标签1,以此类推,Z对应标签25。 手写英文MNIST数据集的使用方法类似于手写数字MNIST数据集。我们可以将数据集中的图像用于训练一个深度学习模型,比如卷积神经网络。模型可以学习如何从图像中提取特征,并预测字母的标签。我们还可以使用数据集来评估模型的性能,例如计算模型的准确率或混淆矩阵等指标。 手写英文MNIST数据集在计算机视觉和机器学习领域具有广泛的应用。它可以用于字符识别,自然语言处理等任务。通过手写英文MNIST数据集的训练,我们可以改进字母识别的准确性,提高文字识别系统的性能。 ### 回答3: 手写英文MNIST数据集是一个用于识别手写字母数据集,其中包含了26个英文字母手写样本。每个样本都是一个28 x 28的灰度图像,像素值范围在0到255之间。 为了手写英文MNIST数据集,首先需要准备26个字母手写样本。可以找到一些手写英文字体,或者自己手写这些字母,确保每个字母都有充分多样的样本。手写样本应该是黑色的图像,背景应该是白色。 然后,将每个样本图像调整为28 x 28的大小,确保每个图像都具有相同的尺寸。可以使用图像处理库,例如OpenCV,来进行图像调整。 接下来,将调整后的图像转换为灰度图像,确保每个像素值都在0到255之间。可以使用图像处理库来实现灰度化操作。 最后,将处理后的图像保存为MNIST数据集的格式。MNIST数据集的格式是每一行代表一个样本,第一个数表示标签,后面的数表示像素值。标签是一个0到25之间的整数,表示字母的索引。像素值是28 x 28个整数,表示每个像素的灰度值。 综上所述,手写英文MNIST数据集的制作过程如上所述。通过这种方法,可以制作一个用于手写字母识别的数据集,可以用于训练和测试机器学习模型。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值