Tensorflow分批量读取数据

最新推荐文章于 2020-06-24 14:44:28 发布

christianashannon

最新推荐文章于 2020-06-24 14:44:28 发布

阅读量1.5k

点赞数

分类专栏：机器学习文章标签：数据

机器学习专栏收录该内容

11 篇文章 0 订阅

订阅专栏

转载

转自：Tensorflow分批量读取数据

之前的博客里使用tf读取数据都是每次fetch一条记录，实际上大部分时候需要fetch到一个batch的小批量数据，在tf中这一操作的明显变化就是tensor的rank发生了变化，我目前使用的人脸数据集是灰度图像，因此大小是92*112的，所以最开始fetch拿到的图像数据集经过reshape之后就是一个rank为2的tensor，大小是92*112的（如果考虑通道，也可以reshape为rank为3的，即92*112*1）。如果加入batch，比如batch大小为5，那么拿到的tensor的rank就变成了3，大小为5*92*112。

下面规则化的写一下读取数据的一般流程，按照官网的实例，一般把读取数据拆分成两个大部分，一个是函数专门负责读取数据和解码数据，一个函数则负责生产batch。

import tensorflow as tf

def read_data(fileNameQue):

    reader = tf.TFRecordReader()
    key, value = reader.read(fileNameQue)
    features = tf.parse_single_example(value, features={'label': tf.FixedLenFeature([], tf.int64),
                                                        'img': tf.FixedLenFeature([], tf.string),})
    img = tf.decode_raw(features["img"], tf.uint8)
    img = tf.reshape(img, [92,112]) # 恢复图像原始大小
    label = tf.cast(features["label"], tf.int32)

    return img, label

def batch_input(filename, batchSize):

    fileNameQue = tf.train.string_input_producer([filename], shuffle=True)
    img, label = read_data(fileNameQue) # fetch图像和label
    min_after_dequeue = 1000
    capacity = min_after_dequeue+3*batchSize
    # 预取图像和label并随机打乱，组成batch，此时tensor rank发生了变化，多了一个batch大小的维度
    exampleBatch,labelBatch = tf.train.shuffle_batch([img, label],batch_size=batchSize, capacity=capacity,
                                                     min_after_dequeue=min_after_dequeue)
    return exampleBatch,labelBatch

if __name__ == "__main__":

    init = tf.initialize_all_variables()
    exampleBatch, labelBatch = batch_input("./data/faceTF.tfrecords", batchSize=10)

    with tf.Session() as sess:

        sess.run(init)
        coord = tf.train.Coordinator()
        threads = tf.train.start_queue_runners(coord=coord)

        for i in range(100):
            example, label = sess.run([exampleBatch, labelBatch])
            print(example.shape)

        coord.request_stop()
        coord.join(threads)

 
 1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43

读取数据和解码数据与之前基本相同，针对不同格式数据集使用不同阅读器和解码器即可，后面是产生batch，核心是tf.train.shuffle_batch这个函数，它相当于一个蓄水池的功能，第一个参数代表蓄水池的入水口，也就是逐个读取到的记录，batch_size自然就是batch的大小了，capacity是蓄水池的容量，表示能容纳多少个样本，min_after_dequeue是指出队操作后还可以供随机采样出批量数据的样本池大小，显然，capacity要大于min_after_dequeue，官网推荐：min_after_dequeue + (num_threads + a small safety margin) * batch_size,还有一个参数就是num_threads，表示所用线程数目。

min_after_dequeue这个值越大，随机采样的效果越好，但是消耗的内存也越大。

christianashannon

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
Tensorflow分批量读取数据

转载转自：Tensorflow分批量读取数据之前的博客里使用tf读取数据都是每次fetch一条记录，实际上大部分时候需要fetch到一个batch的小批量数据，在tf中这一操作的明显变化就是tensor的rank发生了变化，我目前使用的人脸数据集是灰度图像，因此大小是92*112的，所以最开始fetch拿到的图像数据集经过reshape之后就是一个rank为2的tensor，大小是92*112的（如
复制链接

扫一扫