深度学习小白——Tensorflow(三) 读取数据

最新推荐文章于 2024-08-13 22:48:20 发布

MargaretWG

最新推荐文章于 2024-08-13 22:48:20 发布

阅读量7k

点赞数 3

本文链接：https://blog.csdn.net/MargretWG/article/details/70168256

版权

本文详细介绍了在Tensorflow中读取数据的三种方法：供给数据、从文件读取和预加载数据。重点讲解了从文件读取数据的过程，包括文件名列表、文件名乱序、创建阅读器、纪录解析器、预处理和样本队列的构建。通过实例展示了数据读取的典型流程，以及在多线程环境下如何使用tf.train.Coordinator和tf.QueueRunner进行同步和异常处理。

摘要由CSDN通过智能技术生成

Tensorflow 程序读取数据一共有3种方法：

供给数据（feeding）：在程序运行的每一步，让Python代码来供给数据
从文件读取数据：让一个输入管线从文件中读取数据
预加载数据：在tensorflow图中定义常量或变量来保存所有数据（适用于数据量小的时候）

一个典型的文件读取管线会包含下面这些步骤：

文件名列表
可配置的文件名乱序(shuffling)
可配置的最大训练迭代数(epoch limit)
文件名队列
针对输入文件格式的阅读器
纪录解析器
可配置的预处理器
样本队列

以下以tensorflow/models/image/cifar10/cifar10_input.py 为例分步说明

1.得到文件名列表

 filenames=[os.path.join(data_dir,'data_batch_%d.bin'%i) for i in range(1,6)] #得到一个文件名列表
    for  f in filenames:
        if not tf.gfile.Exists(f):
            raise ValueError('Failed to find file: '+ f)

此处用list表示文件名列表，然后依次检验文件是否存在，以抛出异常

2.将文件名列表交给tf.train.string_input_producer函数，得到一个先入先出的队列（Queue），文件阅读器会需要它来读取数据

其中可配置参数中有shuffle，是bool值，判断要不要用乱序操作

  filename_queue=tf.train.string_input_producer(filenames)#生成一个先入先出队列，需要用文件阅读器来读取其数据

3.得到文件名队列后，针对输入文件格式，创建阅读器进行读取

例如：若从CSV文件中读取数据，需要使用TextLineReader和decode_csv来进行读取和解码

若是CIFAR-10 dataset文件，因为每条记录的长度固定，一个字节的标签+3072像素数据

所以此处采用FixedLengthRecordReader()和decode_raw来进行读取和解码

每次read的执行都会从文件中读取一行内容， decode_csv 操作会解析这一行内容并将其转为张量列表。如果输入的参数

最低0.47元/天解锁文章

MargaretWG

关注

3
点赞
踩
19

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫