TensorFlow2.0 大数据预处理Pipeline

最新推荐文章于 2024-06-29 01:14:34 发布

pfeiKing

最新推荐文章于 2024-06-29 01:14:34 发布

阅读量1.1k

点赞数 1

分类专栏： TensorFlow 文章标签： tensorflow 深度学习神经网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Triple_WDF/article/details/109188076

版权

TensorFlow 专栏收录该内容

31 篇文章 12 订阅 ¥9.90 ¥99.00

订阅专栏

超级会员免费看

本文介绍了在TensorFlow 2.0中处理大规模数据集的策略，包括使用tf.data.Dataset的map函数进行数据预处理，以及利用TFRecord文件存储和分批次读取数据。在处理过程中，注意到tf.py_function可能导致并行处理速度下降，并提供了应对策略。

摘要由CSDN通过智能技术生成

目录

一、为什么需要这样？

二、如何解决？

三、TF2.0提供的方法

1、tf.data.Dataset中的map函数

一、为什么需要这样？

入门的时候，我们非常熟悉MNIST手写数字数据集，我们构建深度神经网络，比如CNN，MLP，LSTM等来训练数据集，我们一次性的加载了所有的数据集，然后不停地迭代训练。

当数据集非常大，大到50GB，100GB的时候，我们显然是不能将所有数据加载到内存空间的，不然的话硬件要求是非常苛刻的。

二、如何解决？

其实在我们训练的时候，我们一次需要加载的数据只有batch_size大小，所以我们没有必要将所有的数据全部加载到内存中，可以构建一个队列，每次加载几个batch_size，然后不停地用完，不停的补新，这样可以很好的减少内存开销。

三、TF2.0提供的方法

了解本专栏

超级会员免费看

关注

1
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

博客等级

码龄10年

392
原创

292
点赞

765
收藏

128
粉丝

关注

私信

热门文章

分类专栏

图论付费 27篇
TensorFlow 付费 31篇
ACM HDUOJ&POJ 189篇
SpringBoot
设计模式 2篇
Bugs 1篇
GO 12篇
Time Series Prediction 2篇
Deep Learning 20篇
C++ 34篇
C++ 多线程开发 1篇
JAVA 6篇
MySQL 18篇
编程小记 3篇
数据结构 18篇
背包九讲 8篇
Python 3篇
算法理解及相关证明 8篇
MFC 6篇
C# 3篇
函数，特殊语法 3篇
UML 2篇

最新评论

快排优化（基本有序、基本一致）
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)增加内容的多样性(例如使用标准目录、标题、图片、链接、表格等元素)；(2)增加条理清晰的目录；(3)使用标准目录。
HDU 1338 Game Prediction 小想法
m0_73035684: 这不是一个道理，你赢的最少，等于对面赢的最多，等价于对面拿出最大的n个数，求对面最多赢几次，然后用n减去对面赢的次数，那么就是你最少赢几次了
TensorFlow2.0 利用TFRecord存取数据集，分批次读取训练
大橙子: 引用「train_tfrecord_file」您好，请问下为什么训练集和测试集要用is_train_dataset做一下区分呢？shuffle和prefetch操作对测试集有什么影响？
LeetCode小记
落墨画雪: 你知道我是谁？
LeetCode小记
pfeiKing: 巧了吗？这不是

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。