今天学习Tensorflow 中的dataset,通过研究解决了几个之前的困惑,在这里总结一下
- dataset本质上是一个迭代器,因此dataset的repeat方法并不会增加内存的消耗,只是在原有数据集上增加几个循环的次数
- shuffle需要用到缓冲区,而且一般缓冲区大小大于等于数据集大小,在这篇文章中我对shuffle方法和buffer_size参数做了详细的分析->#深入探究# Tensorflow.Data.shuffle 方法的实现原理和 buffer_size 参数的作用
- batch 每次按batch_size返回batch_size个数据