TensorFlow读取TFRecord数据：使用tf.data.TFRecordDataset读取和使用线程、队列读取的比较（接上一篇博客）

最新推荐文章于 2024-04-28 22:50:14 发布

Curya

最新推荐文章于 2024-04-28 22:50:14 发布

阅读量6.6k

点赞数 4

分类专栏：图像描述文章标签：图像描述 tensorflow

本文链接：https://blog.csdn.net/Ricardo232525/article/details/89709793

版权

图像描述专栏收录该内容

5 篇文章 1 订阅

订阅专栏

0 背景

im2txt代码中读取TFRecord数据使用的是多线程填充队列的方式，从tensorflow 1.4.0（大概是）之后推荐使用tf.data模块进行操作。使用tf.data进行数据读取比较好懂，因为上层的封装比较好，流程比较清楚；但是使用多线程和队列来进行数据获取，虽然整个流程大概是清楚了，但总觉得有什么地方有点迷糊。

1 tf.data模块读取TFRecord数据

看了一下最简单的示例，大概流程可以概括如下：

利用tf.data.TFRecordDataset()打开一个或多个TFRecord文件；
定义一个函数parser()指明对TFRecord文件中每一条数据的处理（包括具体数据的获取和预处理等），并使用map(parser)函数对每条数据应用该处理；
可选择性的对数据进行打乱、按批次获取数据及重复数据；
构造迭代器，使用get_next()迭代获取数据。

示例代码如下：

import tensorflow as tf
# 定义为每一条数据的处理，这里提取了图像id号和描述id序列
def parser(serialized):
    context, sequence = tf.parse_single_sequence_example(
        serialized, 
        context_features={
            'image/image_id': tf.FixedLenFeature([], dtype=tf.int64)
        },
        sequence_features={
            'image/caption_ids': tf.FixedLenSequenceFeature([], dtype=tf.int64)
        })
    image_id = context['image/image_id']
    caption = sequence['image/caption_ids']
    return image_id, caption
    
# 1、使用TFRecordDataset打开一个TFRecord文件，并对每一条数据应用上面定义的操作 
dataset = tf.data.TFRecordDataset('../data/mscoco/test-00007-of-00008')
dataset = dataset.map(parser)
# 可选择性的对数据进行打乱，buffer_size参数等效于tf.train.shuffle_batch的min_after_dequeue参数
# dataset = dataset.shuffle(buffer_size)
# 对数据按批量读取，执行该操作需保证数据的维度是一致的
# dataset = dataset.batch(batch_size)
# 对数据进行重复N份
# dataset = dataset.repeat(N)

# 2、创建迭代器
iterator = dataset.make_one_shot_iterator()
# 3、利用迭代器获取下一条数据
image, caption = iterator.get_next()

with tf.Session() as sess:
    i = 0
    while True:
        try:
            i += 1
            # 顺序获取数据，打印输出
            im, cap = sess.run([image, caption])        
            print(i, im, cap)
        except tf.errors.OutOfRangeError:
            break

代码会顺序读取TFRecord文件的每一条数据，并把其中的每一条数据中的图像id和描述单词的id输出。

但是，使用tf.data.TFRecordDataset()读取TFRecord数据，文件中的数据读完了就会抛出一个OutOfRangeError异常，如果设定了训练迭代步数，应该需要事先计算数据复制的份数，以保证训练正常进行？

2 使用线程和队列读取TFRecord数据

im2txt代码中这部分的流程可以总结如下：

使用tf.train.string_input_producer()创建一个文件名队列；
创建一个FIFOQueue或者RandomShuffleQueue作为数据队列，使用read()函数从文件名队列中读取一条数据，直接将其压入enqueue()前面创建的数据队列（实际上也可以不用压入队列，直接使用read()读取一条数据之后就可以使用tf.parse_single_sequence_example()对该条数据进行解析，这个地方压入队列是因为后面从数据队列中读数据使用了多个线程）；
从数据队列中弹出dequeue()一条数据（默认是4个线程），然后使用tf.parse_single_sequence_example()对该条数据解析，主要是提取其中的图像数据和对应的描述数据（每个单词的id号）；
im2txt里面会对解析出来数据进行又一番处理，主要是从描述数据中提取输入序列、输出序列和序列掩码供训练时使用；然后会利用tf.train.batch_join()函数收集训练时每一个batch要使用的数据。

测试代码如下：

import tensorflow as tf

data_files = ['../data/mscoco/test-00007-of-00008']
reader = tf.TFRecordReader()
# 1、创建文件名队列
filename_queue = tf.train.string_input_producer(data_files, shuffle=False, capacity=16, name='filename_queue')

min_queue_examples = 2300*2
capacity = min_queue_examples+100*32
#values_queue = tf.RandomShuffleQueue(capacity=capacity, min_after_dequeue=min_queue_examples,
#                                    dtypes=[tf.string], name='random_input_queue')
# 为了验证数据的读取顺序是不是和前面tf.data.TFRecordDataset()一致，这里使用的是FIFOQueue进行测试
values_queue = tf.FIFOQueue(capacity=capacity, dtypes=[tf.string], name='random_input_queue')

# 2、从文件名队列中读取一条数据，并把该条数据入队到数据队列values_queue中
key, value = reader.read(filename_queue)
enqueue_ops = []
enqueue_ops.append(values_queue.enqueue([value]))  #入队操作
# 使用tf.train.QueueRunner创建线程运行队列的数据入队操作，这里相当于创建了1个线程
tf.train.add_queue_runner(tf.train.QueueRunner(values_queue, enqueue_ops))

images_and_captions = []
# 3、从数据队列values_queue中出队一条数据，并解析该条数据，这里只是提取了数据中的图像id和描述单词id
serialized = values_queue.dequeue()
context, sequence = tf.parse_single_sequence_example(
				serialized, 
				context_features={
					'image/image_id': tf.FixedLenFeature([], dtype=tf.int64)
				}, 
                sequence_features={
                	'image/caption_ids': tf.FixedLenSequenceFeature([], dtype=tf.int64)
                })
image_id = context['image/image_id']
caption = sequence['image/caption_ids']
images_and_captions = [image_id, caption]

with tf.Session() as sess:
    coord = tf.train.Coordinator()
    threads = tf.train.start_queue_runners(coord=coord)    
    i = 0
    while True:
        try:
            i += 1
            data = sess.run(images_and_captions)
            print(i, data[0], data[1])
        except tf.errors.OutOfRangeError:
            break

最后输出的结果和前面使用tf.data.TFRecordDataset()读取TFRecord数据的结果一样，也会顺序读取TFRecord文件的每一条数据，并把其中的每一条数据中的图像id和描述单词的id输出（因为数据队列使用的FIFOQueue进行的定义）。如果数据队列使用RandomShuffleQueue定义的话，则会打乱输出数据的顺序。

不过不同的是：使用线程和队列获取数据的时候，读完数据之后会从头再次读取数据，因此不需要人为的控制数据的复制。。

3 其他

这个时候，似乎又涉及到了另一个方面：TensorFlow训练过程数据的送入方式。（待查资料…）

之前大多接触的，使用占位符placeholder实现数据的传入
使用线程和队列进行数据的输入，不需要占位符的定义（疑惑：提到说需要使用tf.train.Coordinator来协同启动的线程，并且由于使用了tf.train.QueueRunner()创建线程，因此需要明确调用tf.train.start_queue_runners来启动所有线程，否则没有线程执行入队操作，执行出队操作时线程会被挂起。但是，im2txt里面好像没有start_queue_runnners。）
Dataset的使用。。。（还不是清楚使用Dataset怎样把数据送到训练模型中，可直接用于替换方式2？）

Curya

关注

4
点赞
踩
14

收藏

觉得还不错? 一键收藏
1
评论
TensorFlow读取TFRecord数据：使用tf.data.TFRecordDataset读取和使用线程、队列读取的比较（接上一篇博客）

背景im2txt代码中读取TFRecord数据使用的是多线程填充队列的方式，从tensorflow 1.4.0（大概是）之后推荐使用tf.data模块进行操作。使用tf.data进行数据读取比较好懂，因为上层的封装比较好，流程比较清楚；但是使用多线程和队列来进行数据获取总觉得有什么地方不太明白。tf.data模块读取TFRecord数据看了一下最简单的示例，大概流程可以概括如下：利用tf...
复制链接

扫一扫