【Tensorflow教程笔记】常用模块 tf.data ：数据集的构建与预处理

最新推荐文章于 2024-05-07 14:03:48 发布

_APTX4869

最新推荐文章于 2024-05-07 14:03:48 发布

阅读量6.9k

点赞数 10

分类专栏： Tensorflow

本文链接：https://blog.csdn.net/nanke_4869/article/details/114209831

版权

基础
TensorFlow 基础
 TensorFlow 模型建立与训练
 基础示例：多层感知机（MLP）
卷积神经网络（CNN）
循环神经网络（RNN）
深度强化学习（DRL）
Keras Pipeline
自定义层、损失函数和评估指标
 常用模块 tf.train.Checkpoint ：变量的保存与恢复
 常用模块 TensorBoard：训练过程可视化
 常用模块 tf.data ：数据集的构建与预处理
 常用模块 TFRecord ：TensorFlow 数据集存储格式
 常用模块 tf.function ：图执行模式
 常用模块 tf.TensorArray ：TensorFlow 动态数组
 常用模块 tf.config：GPU 的使用与分配
部署
TensorFlow 模型导出
 TensorFlow Serving
TensorFlow Lite
大规模训练与加速
TensorFlow 分布式训练
 使用 TPU 训练 TensorFlow 模型
扩展
TensorFlow Hub 模型复用
 TensorFlow Datasets 数据集载入
附录
强化学习基础简介

很多时候，我们希望使用自己的数据集来训练模型。然而，面对一堆格式不一的原始数据文件，将其预处理并读入程序的过程往往十分繁琐，甚至比模型的设计还要耗费精力。比如，为了读入一批图像文件，我们可能需要纠结于 python 的各种图像处理包（比如 pillow ），自己设计 Batch 的生成方式，最后还可能在运行的效率上不尽如人意。为此，TensorFlow 提供了 tf.data 这一模块，包括了一套灵活的数据集构建 API，能够帮助我们快速、高效地构建数据输入的流水线，尤其适用于数据量巨大的场景。

数据集对象的建立

tf.data 的核心是 tf.data.Dataset 类，提供了对数据集的高层封装。tf.data.Dataset 由一系列的可迭代访问的元素（element）组成，每个元素包含一个或多个张量。比如说，对于一个由图像组成的数据集，每个元素可以是一个形状为 长×宽×通道数 的图片张量，也可以是由图片张量和图片标签张量组成的元组（Tuple）。

最基础的建立 tf.data.Dataset 的方法是使用 tf.data.Dataset.from_tensor_slices() ，适用于数据量较小（能够整个装进内存）的情况。具体而言，如果我们的数据集中的所有元素通过张量的第 0 维，拼接成一个大的张量（例如，前节的 MNIST 数据集的训练集即为一个 [60000, 28, 28, 1] 的张量，表示了 60000 张 28*28 的单通道灰度图像），那么我们提供一个这样的张量或者第 0 维大小相同的多个张量作为输入，即可按张量的第 0 维展开来构建数据集，数据集的元素数量为张量第 0 维的大小。具体示例如下：

import tensorflow as tf
import numpy as np

X = tf.constant([2013, 2014, 2015, 2016, 2017])
Y = tf.constant([12000, 14000, 15000, 16500, 17500])

# 也可以使用NumPy数组，效果相同
# X = np.array([2013, 2014, 2015, 2016, 2017])
# Y = np.array([12000, 14000, 15000, 16500, 17500])

dataset = tf.data.Dataset.from_tensor_slices((X, Y))

for x, y in dataset:
    print(x.numpy(), y.numpy())

输出:

当提供多个张量作为输入时，张量的第 0 维大小必须相同，且必须将多个张量作为元组（Tuple，即使用 Python 中的小括号）拼接并作为输入。

类似地，我们可以载入前章的 MNIST 数据集：

import matplotlib.pyplot as plt 

(train_data, train_label), (_, _) = tf.keras.datasets.mnist.load_data()
train_data = np.expand_dims(train_data.astype(np.float32) / 255.0, axis=-1)      # [60000, 28, 28, 1]
mnist_dataset = tf.data.Dataset.from_tensor_slices((train_data, train_label))

for image, label in mnist_dataset:
    plt.title

最低0.47元/天解锁文章

_APTX4869

关注

10
点赞
踩
35

收藏

觉得还不错? 一键收藏
3
评论
【Tensorflow教程笔记】常用模块 tf.data ：数据集的构建与预处理

Tensorflow教程笔记基础TensorFlow 基础TensorFlow 模型建立与训练基础示例：多层感知机（MLP）卷积神经网络（CNN）循环神经网络（RNN）深度强化学习（DRL）Keras Pipeline自定义层、损失函数和评估指标常用模块 tf.train.Checkpoint ：变量的保存与恢复常用模块 TensorBoard：训练过程可视化常用模块 tf.data ：数据集的构建与预处理目录Tensorflow教程笔记数据集对象的建立提示数据集对象的预处理
复制链接

扫一扫