TensorFlow2：tf.data数据集的构建与预处理

最新推荐文章于 2023-04-27 14:50:01 发布

supreme_wpc98

最新推荐文章于 2023-04-27 14:50:01 发布

阅读量960

点赞数

分类专栏：人工智能

本文链接：https://blog.csdn.net/pengchengit/article/details/117554842

版权

人工智能专栏收录该内容

11 篇文章 0 订阅

订阅专栏

tf.data.Dataset是一种针对大规模数据设计的迭代器。tf.data中有许多数据集预处理函数，并且可以和keras框架的compile、fit、evaluate训练方式和tf.GradientTape无缝衔接，使训练网络和数据预处理变得简单

数据集构建

代码示例

import tensorflow as tf

x = tf.constant([1,2,3,4,5])
y = tf.constant([6,7,8,9,10])
dataset = tf.data.Dataset.from_tensor_slices((x,y))

for x,y in dataset:
    print(x.numpy(),y.numpy())

数据集预处理函数

训练过程中为了得到最优的结果，我们常常用分批，多次迭代的方法训练网络。先建立一个缓冲区，将训练集打乱放入，再将训练集分批，反复迭代，进行多个epoch，多次更新权重。tf.data中提供数据集预处理的函数，让训练简单。下面给出几个常用的预处理函数。

Dataset.map(f)

对数据集中的每个元素应用函数f，得到一个新数据集

Dataset.shuffle(buffer_size)

设定一个固定大小（buffer_size）的缓冲区，取出原数据集前buffer_size个元素放入，将数据集打乱，得到一个新的数据集

Dataset.batch(batch_size)

将数据集分成批，批大小为batch_size

dataset = dataset.shuffle(buffer_size=28800).batch(720)

Dataset.prefetch()

在这里插入图片描述
这是一种并行化策略，充分利用多核CPU与GPU的计算资源，减少CPU/GPU的空载时间，加入下面一行代码，让TensorFlow自动根据CPU情况处理，使用后会大大减少训练时间

dataset = dataset.prefetch(tf.data.experimental.AUTOTUNE)

supreme_wpc98

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
TensorFlow2：tf.data数据集的构建与预处理

tf.data.Dataset是一种针对大规模数据设计的迭代器。tf.data中有许多数据集预处理函数，并且可以和keras框架的compile、fit、evaluate训练方式和tf.GradientTape无缝衔接，使训练网络和数据预处理变得简单tf.data数据集的构建与预处理数据集构建数据集预处理函数Dataset.map(f)Dataset.shuffle(buffer_size)Dataset.batch(batch_size)Dataset.prefetch()数据集构建代码示例imp
复制链接

扫一扫

专栏目录