TensorFlow2:tf.data数据集的构建与预处理

tf.data.Dataset是一种针对大规模数据设计的迭代器。tf.data中有许多数据集预处理函数,并且可以和keras框架的compile、fit、evaluate训练方式和tf.GradientTape无缝衔接,使训练网络和数据预处理变得简单

数据集构建

代码示例

import tensorflow as tf

x = tf.constant([1,2,3,4,5])
y = tf.constant([6,7,8,9,10])
dataset = tf.data.Dataset.from_tensor_slices((x,y))

for x,y in dataset:
    print(x.numpy(),y.numpy())

数据集预处理函数

训练过程中为了得到最优的结果,我们常常用分批,多次迭代的方法训练网络。先建立一个缓冲区,将训练集打乱放入,再将训练集分批,反复迭代,进行多个epoch,多次更新权重。tf.data中提供数据集预处理的函数,让训练简单。下面给出几个常用的预处理函数。

Dataset.map(f)

对数据集中的每个元素应用函数f,得到一个新数据集

Dataset.shuffle(buffer_size)

设定一个固定大小(buffer_size)的缓冲区,取出原数据集前buffer_size个元素放入,将数据集打乱,得到一个新的数据集

Dataset.batch(batch_size)

将数据集分成批,批大小为batch_size

dataset = dataset.shuffle(buffer_size=28800).batch(720)

Dataset.prefetch()

在这里插入图片描述
这是一种并行化策略,充分利用多核CPU与GPU的计算资源,减少CPU/GPU的空载时间,加入下面一行代码,让TensorFlow自动根据CPU情况处理,使用后会大大减少训练时间

dataset = dataset.prefetch(tf.data.experimental.AUTOTUNE)
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值