tensorflow数据读取流程和tf.data的使用

最新推荐文章于 2022-09-30 18:35:39 发布

菜田的守望者

最新推荐文章于 2022-09-30 18:35:39 发布

阅读量462

点赞数 1

分类专栏： tensorflow深度学习文章标签：深度学习 tensorflow数据读取流程 tf.data的使用读取tfrecord

本文链接：https://blog.csdn.net/weixin_43492016/article/details/96484811

版权

tensorflow深度学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

读取数据流程

该过程可以分为三步

构造文件名队列

把文件名队列读取进来，并随即打乱shufflu，即从filename到Filename到FilenameQueeue阶段

file_queue=tf.train.string_input_producer(file_list)

读取与解码

使用读取器从上一步拿到的文件名队列，从文件中读取数据，按照一个样本为单位读取的，图片，文本，的编码不同，使用的解码器不同。

	reader=tf.WholeFileReader()
    _,value=reader.read(file_queue)
    image_a=tf.image.decode_jpeg(value,channels=3)
    image=tf.image.resize_images(image_a,[iamge_size,image_size])
    image=tf.cast(image,tf.float32)
    image=tf.reshape(image,shape=[iamge_size,image_size,channel])

批处理阶段

构建批次即batch_size

inputs=tf.train.batch([image],batch_size=22,num_threads,capacity)

tf.data高级API的使用

self.tfrecordFile是解析tfrecord的路径，
dataset = tf.data.TFRecordDataset(filenames = self.TfrecordFile)
num_parallel_calls 参数的最优值取决于你的硬件，训练数据的特点（比如：它的 size、shape），map 函数的计算量 和 CPU 上同时进行的其它处理。一个简单的原则是：将 num_parallel_calls 设置为 CPU 的核心数。例如，如果 CPU 有四个核，将 num_parallel_calls 设置为 4 将会很高效。另一方面，设置 num_parallel_calls 大于 CPU 的核心数，能够导致低效的调度，导致输入管道速度下降
dataset = dataset.map(self.parser, num_parallel_calls = 10)
将数据集打乱，并构建batch_size
dataset = dataset.repeat().shuffle(9000).batch(batch_size).prefetch(batch_size)
iterator = dataset .make_one_shot_iterator()
get_next()方法使数据集不断的向神经网络中送
iamge,label= iterator.get_next()

这样就不用使用tf.placeholder()占位符了，直接将image送到神经网络中就能实现训练优化。