TensorFlow2.0制作自己的数据集。

第一步:

准备好需要训练的图片,这个自行准备,并将图片分类好,并且给每一类图片所在的文件夹命名。如图,我这里共分5类,分别为00000,00001,00002,00003,00004。

在这里插入图片描述

第二步

获取图片和标签并存放到对应列表中。
1.导入需要的包

import tensorflow as tf
import os
os.environ['TF_CPP_MIN_LOG_LEVEL'] = '2'
import numpy as np
import cv2 as cv
import random
import csv
import time

#训练图片的路径
train_dir = 'D:\\pic\\train'
test_dir = 'D:\\pic\\test'
AUTOTUNE = tf.data.experimental.AUTOTUNE

2.获取图片,存放到对应的列表中,同时贴上标签,存放到label列表中

#获取图片,存放到对应的列表中,同时贴上标签,存放到label列表中
def get_files(file_dir):
	# 存放图片类别和标签的列表:第0类
	list_0 = []
	label_0 = []
	# 存放图片类别和标签的列表:第1类
	list_1 = []
	label_1 = []
	# 存放图片类别和标签的列表:第2类
	list_2 = []
	label_2 = []
	# 存放图片类别和标签的列表:第3类
	list_3 = []
	label_3 = []
	# 存放图片类别和标签的列表:第4类
	list_4 = []
	label_4 = []


	for file in os.listdir(file_dir):
		# print(file)
		#拼接出图片文件路径
		image_file_path = os.path.join(file_dir,file)
		for image_name in os.listdir(image_file_path):
			# print('image_name',image_name)
			#图片的完整路径
			image_name_path = os.path.join(image_file_path,image_name)
			# print('image_name_path',image_name_path)
			#将图片存放入对应的列表
			if image_file_path[-1:] == '0':
				list_0.append(image_name_path)
				label_0.append(0)
			elif image_file_path[-1:] == '1': 
				list_1.append(image_name_path)
				label_1.append(1)
			elif image_file_path[-1:] == '2':
				list_2.append(image_name_path)
				label_2.append(2)
			elif image_file_path[-1:] == '3':
				list_3.append(image_name_path)
				label_3.append(3)
			else:
				list_4.append(image_name_path)
				label_4.append(4)

	# 合并数据
	image_list = np.hstack((list_0, list_1, list_2, list_3, list_4))
	label_list = np.hstack((label_0, label_1, label_2, label_3, label_4))
	#利用shuffle打乱数据
	temp = np.array([image_list, label_list])
	temp = temp.transpose()  # 转置
	np.random.shuffle(temp)
	
	#将所有的image和label转换成list
	image_list = list(temp[:, 0])
	image_list = [i for i in image_list]
	label_list = list(temp[:, 1])
	label_list = [int(float(i)) for i in label_list]
	# print(image_list)
	# print(label_list)
	return image_list, label_list

此时如果输出 image_list 和 label_list,会看到两个列表分别存放图片路径和对应的标签。

第三步

3.将图片转成tensor对象

def get_tensor(image_list, label_list):
	ims = []
	for image in image_list:
		#读取路径下的图片
		x = tf.io.read_file(image)
		#将路径映射为照片,3通道
		x = tf.image.decode_jpeg(x, channels=3)
		#修改图像大小
		x = tf.image.resize(x,[32,32])
		#将图像压入列表中
		ims.append(x)
	#将列表转换成tensor类型
	img = tf.convert_to_tensor(ims)
	y = tf.convert_to_tensor(label_list)
	return img,y

第四步

4.图像预处理(需要怎样的预处理根据需求自定)

def preprocess(x,y):
	#归一化
	x = tf.cast(x,dtype=tf.float32) / 255.0
	y = tf.cast(y, dtype=tf.int32)
	return x,y

第五步

5.将图像与标签写入CSV文件,格式为: 【图像,标签】

if __name__ == "__main__":
	#训练图片与标签
	image_list, label_list = get_files(train_dir)
	#测试图片与标签
	test_image_list,test_label_list = get_files(test_dir)
	# for i in range(len(image_list)):
		# print('图片路径 [{}] : 类型 [{}]'.format(image_list[i], label_list[i]))
	x_train, y_train = get_tensor(image_list, label_list)
	x_test, y_test = get_tensor(test_image_list,test_label_list)
	# print('image_list:{}, label_list{}'.format(image_list, label_list))
	print('--------------------------------------------------------')
	# print('x_train:', x_train.shape, 'y_train:', y_train.shape)
	#生成图片,对应标签的CSV文件(只用保存一次就可以了)
	#with open('./image_label.csv',mode='w', newline='') as f:
	#	Write = csv.writer(f)
	#	for i in range(len(image_list)):
	#		Write.writerow([image_list[i],str(label_list[i])])
	#f.close()
	#载入训练数据集
	db_train = tf.data.Dataset.from_tensor_slices((x_train, y_train))
	# # shuffle:打乱数据,map:数据预处理,batch:一次取喂入10样本训练
	db_train = db_train.shuffle(1000).map(preprocess).batch(10)

	#载入训练数据集
	db_test = tf.data.Dataset.from_tensor_slices((x_test, y_test))
	# # shuffle:打乱数据,map:数据预处理,batch:一次取喂入10样本训练
	db_test = db_test.shuffle(1000).map(preprocess).batch(10)
	#生成一个迭代器输出查看其形状
	sample_train = next(iter(db_train))
	sample_test = next(iter(db_test))
	print(sample_train)
	print(sample_test)
	print('sample_train:', sample_train[0].shape, sample_train[1].shape)
	print('sample_test:', sample_test[0].shape, sample_test[1].shape)

另:CSV结果如图:
在这里插入图片描述
OK啦~以后获取训练集的时候只需要你读入CSV文档就可以了。

  • 17
    点赞
  • 158
    收藏
    觉得还不错? 一键收藏
  • 17
    评论
### 回答1: 制作数据集的步骤如下: 1. 收集数据:收集需要用于训练模型的数据,可以是图片、文本、音频等。 2. 数据预处理:对收集到的数据进行预处理,如图像的缩放、裁剪、旋转等操作,文本的分词、去除停用词等操作。 3. 数据标注:对数据进行标注,如图像的分类、目标检测、语义分割等标注方式,文本的情感分类、命名实体识别等标注方式。 4. 数据集划分:将数据集划分为训练集、验证集和测试集,一般比例为6:2:2。 5. 数据集存储:将处理好的数据集存储为tfrecord格式,方便后续读取和处理。 在tensorflow2.中,可以使用tf.data.Dataset API来读取和处理tfrecord格式的数据集,具体操作可以参考官方文档。 ### 回答2: TensorFlow 2.0是一个强大的机器学习工具,它可以帮助我们训练并优化模型。在使用TensorFlow 2.0构建机器学习模型之前,我们需要先构建一个数据集。构建数据集的过程通常包括数据的处理、清洗和转换等步骤。 第一步是定义数据集。在TensorFlow 2.0中,数据集由tf.data.Dataset对象表示。可以使用tf.data.Dataset.from_tensor_slices()或tf.data.Dataset.from_generator()函数来定义数据集。from_tensor_slices()函数需要将数据存储在一个Numpy数组或一个TensorFlow张量中,而from_generator()函数则需要一个Python生成器来生成数据。 第二步是对数据集进行预处理和清洗操作。在TensorFlow 2.0中,数据预处理和清洗可采用tf.keras.preprocessing模块。例如,可以使用ImageDataGenerator类来对图像进行缩放或裁剪,也可以使用TextVectorization类对文本进行向量化处理。 第三步是将数据集转换成可以用于模型训练的格式。在TensorFlow 2.0中,使用.map()方法可以对数据集应用任何函数。例如,可以使用.map()方法来对每个图像进行缩放操作或者对每个文本进行词袋编码。此外,TensorFlow 2.0还提供了.batch()方法,可以将数据集分成小批量来进行训练。 最后,我们需要在模型训练之前对数据集进行随机化和重复等操作,以确保训练数据的随机性和多样性。TensorFlow 2.0提供了.shuffle()和.repeat()方法,可以很容易地完成这些操作。 在构建数据集时,我们还需要注意一些问题。例如,如果数据集非常大,则可能需要使用TensorFlow 2.0的分布式训练功能来并行处理数据。另外,如果数据集包含多个类型的数据,则需要对数据进行适当的类型转换和归一化处理。此外,还需要保证数据集的质量和一致性,以确保训练模型的准确性和可靠性。 总之,使用TensorFlow 2.0构建数据集的过程需要考虑多个方面,包括数据集的定义、预处理和清洗、转换和数据集的随机化和重复。只有在数据集构建得到优化和精细后,才能使模型的训练更加准确和可靠。 ### 回答3: TensorFlow是一个流行的深度学习框架,它支持制作、读取和处理数据集。在TensorFlow 2.0中,制作数据集可以使用TensorFlow提供的Dataset API。 Dataset API是一种高效地处理大量数据的API,可以自动执行诸如数据读取,预处理,shuffle和batch等操作,以便更好地处理训练数据集和测试数据集。 下面是使用TensorFlow 2.0生成一个简单的数据集的步骤: 1.导入必要的库 ``` import tensorflow as tf import numpy as np ``` 2.生成训练和测试数据 ``` train_data = np.random.randint(0,10,[500,5]) train_label = np.random.randint(0,2,[500,1]) test_data = np.random.randint(0,10,[50,5]) test_label = np.random.randint(0,2,[50,1]) ``` 上述代码中,我们生成了500个训练样本和50个测试样本,每个样本包含5个特征。每个样本都有一个标签,可以是0或1。 3.创建Dataset对象 ``` train_dataset = tf.data.Dataset.from_tensor_slices((train_data,train_label)) test_dataset = tf.data.Dataset.from_tensor_slices((test_data,test_label)) ``` TensorFlow从切片中创建Dataset对象是最常见的方式之一。这里我们使用from_tensor_slices函数从numpy数组中创建Dataset对象。将输入数据和标签作为元组传递给from_tensor_slices函数。 4.对数据集进行预处理 ``` def preprocess(data, label): data = tf.cast(data, tf.float32) / 255. label = tf.cast(label, tf.int32) return data, label ``` 在这个预处理函数中,我们将数据类型转换为float32类型,并将数值归一化为0到1之间的值。标签被转换为int32类型。 5.应用预处理函数到数据集 ``` train_dataset = train_dataset.map(preprocess) test_dataset = test_dataset.map(preprocess) ``` 在这里,我们使用map函数应用预处理函数。这将处理每个元素(特征和标签)。 6.对数据集进行shuffle和batch处理 ``` train_dataset = train_dataset.shuffle(buffer_size=1000).batch(20) test_dataset = test_dataset.batch(20) ``` 使用shuffle和batch函数可以随机打乱数据集,并指定每批的大小。在这里,我们使用大小为20的批次。 7.将数据集用于模型训练 ``` model.fit(train_dataset, epochs=10, validation_data=test_dataset) ``` 最后,我们使用fit函数来训练我们的模型,并使用验证数据集来测试我们的模型性能。这种方法使数据集处理变得容易和高效,增加了数据表现力,提高了模型性能。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 17
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值