TensorFlow学习笔记05

最新推荐文章于 2024-07-23 15:35:01 发布

小萌娃

最新推荐文章于 2024-07-23 15:35:01 发布

阅读量106

点赞数 1

数据集Dataset

TensorFlow提供一套高层的数据处理框架，将每一个数据来源抽象成一个“数据集”，开发者可以以数据集为基本对象，方便进行batching、shuffle等操作。
数据集读取数据基本步骤：

定义数据集构造方法：不同数据来源调用不同构造方法（张量——tf.data.Dataset.from_tensor_slices()、文本文件——tf.data.TextLineDataset()、TFRecord——tf.data.TFRecordDataset()）
定义遍历器：主要方式有两种，make_one_shot_iterator()、make_initializable_iterator()，第二种更加灵活，对应placeholder使用，后面的代码会详细标明如何搭配使用
使用get_next()方法从迭代器中读取数据张量，作为计算图其他部分的输入

具体实例：

import tensorflow as tf

input_files = tf.placeholder(tf.string)
dataset = tf.data.TFRecordDataset(input_files)

iterator = dataset.make_initializable_iterator()

x = iterator.get_next()

with tf.Session() as sess:
    sess.run(iterator.initializer,
             feed_dict={
                 input_files: ["", ""]
             })
    # 遍历结束时抛出OutofRange异常以结束程序
    while True:
        try:
            sess.run(x)
        except tf.errors.OutOfRangeError:
            break