TensorFlow多线程读取机制

最新推荐文章于 2021-02-27 20:52:53 发布

蓬莱道人

最新推荐文章于 2021-02-27 20:52:53 发布

阅读量3.3k

点赞数 1

分类专栏： TensorFlow

本文链接：https://blog.csdn.net/MOU_IT/article/details/82797610

版权

1、TensorFlow读取机制图解

我们必须要把数据先读入后才能进行计算，假设读入用时0.1s，计算用时0.9s，那么就意味着每过1s，GPU都会有0.1s无事可做，这就大大降低了运算的效率。解决这个问题方法就是将读入数据和计算分别放在两个线程中，将数据读入内存的一个队列，如下图所示：

读取线程源源不断地将文件系统中的图片读入到一个内存的队列中，而负责计算的是另一个线程，计算需要数据时，直接从内存队列中取就可以了。这样就可以解决GPU因为IO而空闲的问题！在tensorflow中，为了方便管理，在内存队列前又添加了一层所谓的“文件名队列”。tensorflow使用文件名队列+内存队列双队列的形式读入文件，可以很好地管理epoch。下面我们用图片的形式来说明这个机制的运行方式：

2、相关函数简介

（1）三个机制：

Queue是TF队列和缓存机制的实现，它本质上是一个队列；
QueueRunner是TF中对操作Queue的线程的封装，它本质上是一个线程；
Coordinator是TF中用来协调线程运行的工具，保存线程组的运行状态；

（2）读取步骤

步骤：
1）获取文件名列表list
2）创建文件名队列，调用tf.train.string_input_producer()，参数包含：文件名列表，num_epochs【定义重复次数】，shuffle【定义是否打乱文件的顺序】
3）定义对应文件的阅读器：tf.ReaderBase、tf.TFRecordReader 、tf.TextLineReader 、tf.WholeFileReader 、tf.IdentityReader 、tf.FixedLengthRecordReader。
4）解析器 : tf.decode_csv 、tf.decode_raw 、 tf.image.decode_image 。
5）预处理，对原始数据进行处理，以适应network输入所需
6）生成batch，调用tf.train.bat