设计最优数据输入管道

最新推荐文章于 2024-03-29 10:29:15 发布

ukakasu

最新推荐文章于 2024-03-29 10:29:15 发布

阅读量301

点赞数 2

分类专栏：深度学习 TensorFlow

本文链接：https://blog.csdn.net/ukakasu/article/details/86013352

版权

29 篇文章 0 订阅

订阅专栏

10 篇文章 0 订阅

订阅专栏

设计最优数据输入管道

使用 prefetch 函数去重叠数据读取器和数据消耗器的工作。推荐在输入管道的末端添加 prefetch(n) （n是batch size），以重叠 CPU 上的变换及 GPU/TPU设备上的训练。
```
    dataset = dataset.batch(batch_size=FLAGS.batch_size)
    dataset = dataset.prefetch(buffer_size=FLAGS.prefetch_buffer_size) # last transformation
    return dataset
    ```
```
通过设置 num_parallel_calls 参数，来并行 map 变换。我们建议使用将该参数设置为 CPU 的核心数。
```
  dataset = dataset.map(map_func=parse_fn, num_parallel_calls=FLAGS.num_parallel_calls)
```

如果使用 batch 变换来将预处理好的元素 batching，建议使用融合op：map_and_batch 变换；尤其是使用大的batch size。

dataset = dataset.apply(tf.contrib.data.map_and_batch(map_func=parse_fn,batch_size=FLAGS.batch_size))

如果数据存在远程存储上，（且有时需要解析），建议使用 parallel_interleave 来并行数据的读取和解析。

  dataset = files.apply(tf.contrib.data.parallel_interleave(
      tf.data.TFRecordDataset, cycle_length=FLAGS.num_parallel_readers))

关注

专栏目录