TensorFlow2:tf.data数据集的构建与预处理

tf.data.Dataset是一种针对大规模数据设计的迭代器。tf.data中有许多数据集预处理函数,并且可以和keras框架的compile、fit、evaluate训练方式和tf.GradientTape无缝衔接,使训练网络和数据预处理变得简单

数据集构建

代码示例

import tensorflow as tf

x = tf.constant([1,2,3,4,5])
y = tf.constant([6,7,8,9,10])
dataset = tf.data.Dataset.from_tensor_slices((x,y))

for x,y in dataset:
    print(x.numpy(),y.numpy())

数据集预处理函数

训练过程中为了得到最优的结果,我们常常用分批,多次迭代的方法训练网络。先建立一个缓冲区,将训练集打乱放入,再将训练集分批,反复迭代,进行多个epoch,多次更新权重。tf.data中提供数据集预处理的函数,让训练简单。下面给出几个常用的预处理函数。

Dataset.map(f)

对数据集中的每个元素应用函数f,得到一个新数据集

Dataset.shuffle(buffer_size)

设定一个固定大小(buffer_size)的缓冲区,取出原数据集前buffer_size个元素放入,将数据集打乱,得到一个新的数据集

Dataset.batch(batch_size)

将数据集分成批,批大小为batch_size

dataset = dataset.shuffle(buffer_size=28800).batch(720)

Dataset.prefetch()

在这里插入图片描述
这是一种并行化策略,充分利用多核CPU与GPU的计算资源,减少CPU/GPU的空载时间,加入下面一行代码,让TensorFlow自动根据CPU情况处理,使用后会大大减少训练时间

dataset = dataset.prefetch(tf.data.experimental.AUTOTUNE)
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
以下是使用TensorFlow加载MNIST数据集并进行预处理的示例代码: ``` import tensorflow as tf from tensorflow.examples.tutorials.mnist import input_data # 下载并读取数据集 mnist = input_data.read_data_sets("MNIST_data/", one_hot=True) # 定义占位符 x = tf.placeholder(tf.float32, [None, 784]) y_true = tf.placeholder(tf.float32, [None, 10]) # 将输入数据reshape为28x28的图片 x_image = tf.reshape(x, [-1, 28, 28, 1]) # 数据归一化 x_image = x_image / 255.0 # 定义卷积层 conv1 = tf.layers.conv2d(inputs=x_image, filters=32, kernel_size=[5, 5], padding="same", activation=tf.nn.relu) pool1 = tf.layers.max_pooling2d(inputs=conv1, pool_size=[2, 2], strides=2) # 定义全连接层 pool1_flat = tf.reshape(pool1, [-1, 14 * 14 * 32]) fc1 = tf.layers.dense(inputs=pool1_flat, units=1024, activation=tf.nn.relu) dropout1 = tf.layers.dropout(inputs=fc1, rate=0.4) # 定义输出层 y_pred = tf.layers.dense(inputs=dropout1, units=10) # 定义损失函数 cross_entropy = tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits(labels=y_true, logits=y_pred)) # 定义优化器 train_step = tf.train.AdamOptimizer(learning_rate=0.001).minimize(cross_entropy) # 定义正确率 correct_prediction = tf.equal(tf.argmax(y_pred, 1), tf.argmax(y_true, 1)) accuracy = tf.reduce_mean(tf.cast(correct_prediction, tf.float32)) # 训练模型 with tf.Session() as sess: sess.run(tf.global_variables_initializer()) for i in range(1000): batch_x, batch_y = mnist.train.next_batch(100) _, loss = sess.run([train_step, cross_entropy], feed_dict={x: batch_x, y_true: batch_y}) if i % 100 == 0: acc = sess.run(accuracy, feed_dict={x: mnist.test.images, y_true: mnist.test.labels}) print("Step:", i, "Loss:", loss, "Accuracy:", acc) ``` 在这个例子中,我们使用了TensorFlow内置的`input_data`模块来下载和读取MNIST数据集数据集包括训练集、验证集和测试集,每个集合都包含图片和对应的标签。我们将训练集和验证集合并,将测试集用于测试模型性能。 在预处理阶段,我们将输入数据reshape为28x28的图片,并进行了归一化处理。在模型中,我们使用了一个卷积层和一个全连接层来构建模型,同时加入了dropout来防止过拟合。最后我们定义了损失函数、优化器和正确率,并训练模型。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值