tensorflow dataset 的一些使用经验

最新推荐文章于 2022-09-03 18:09:44 发布

CY_TEC

最新推荐文章于 2022-09-03 18:09:44 发布

阅读量398

点赞数

CC 4.0 BY-SA版权

分类专栏： tensorflow 机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/CY_TEC/article/details/116947375

机器学习同时被 2 个专栏收录

30 篇文章

订阅专栏

3 篇文章

订阅专栏

最近使用 tensorflow dataset 的过程，以及不同方法的考量大概经历了一下几个过程。

把训练文件生成一个 tfrecord。
后来发现其实我们是按天更新的，于是改成了多个 tfrecord，读取的时候，直接传一个文件列表就行了。之所以这样，一方面是不需要每天重复更新之前的数据，另一方面是避免了生成太大的文件。
把本地生成的 tfrecord 放到 hdfs 上，训练的时候，直接读取 hdfs 文件。这样做的原因，主要是因为训练的服务器硬盘有限，同时有很多模型在使用。如果都把 tfrecord 文件放到这里，很容易就会硬盘满了，大家都跑不动了。
3 中使用的方法，仍然要把数据 load 到本地，转换成 tfrecord 之后再推到 hdfs 上，缓解了本地的硬盘压力，但是也容易出现扎堆占用本地硬盘的情况。所以采用了 hadoop-streaming 的方法，在 reduce 的过程中，在结点上生成 tfrecord，reduce 结束的时候，在用 hadoop fs -put 的方法放到指定的 hdfs 目录下。
方法 4 的尴尬之处在于，我们的 hadoop 结点上没有安装 hadoop client 。。所以方法 4 并不适用于我所遇到的问题。于是，我们采用了 TextlineData 的方式。这种方法可以用 list_files 把目录下的文件匹配出来（这里是可以指定解压格式的，比较方便）。然后使用 filter 方法进行采样。最后再使用 map 的方法把数据从 libsvm 格式的文件中得到 label/feature_index/feature/value。在这里使用 filter/map 都可以使用 py_function 对 tensor 的处理进行封装。
方法 5 的缺点是，在训练的时候执行采样会比较慢，而且每次训练都需要重新采样，这样其实不太有必要。于是，我在 5 的过程中，加了一层预处理，先使用 map/reduce 对训练数据进行采样，然后直接训练。这也算是用 hdfs 的空间换训练的时间了吧。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。