TensorFlow 如何避免重复下载数据 ——转自慢慢学TensorFlow 微信公众号

最新推荐文章于 2023-08-25 23:37:27 发布

dxmkkk

最新推荐文章于 2023-08-25 23:37:27 发布

阅读量1.2k

点赞数 1

文章标签：慢慢学TensorFlow

在运行 TensorFlow 例程时，经常需要下载一些数据文件，有些数据文件比较大，网络条件不好的时候会花费较长时间，而且这段时间干等也不是办法，有没有一种一劳永逸的方法避免重复下载数据呢？答案是肯定的，我们从源码中找找答案。

打开 MNIST 例程（https://github.com/tensorflow/tensorflow/blob/r0.12/tensorflow/models/image/mnist/convolutional.py），找到 maybe_download 这个函数，代码如下：

其中 WORK_DIRECTORY 已经在前面第 38 行定义

WORK_DIRECTORY = 'data'

在 maybe_download 函数中，首先判断这个目录是否存在，如果不存在，则创建它。

之后，判断 WORK_DIRECTORY 下的 filename 对应的文件是否存在，如果不存在，则利用 urllib 模块发起 HTTP 请求，从 SOURCE_URL 下载。

SOURCE_URL = 'http://yann.lecun.com/exdb/mnist/'

下载之后会打印相应下载文件大小信息。

看完 maybe_download 这个函数定义，再看看它是怎么调用的，以及传递的 filename 参数究竟是什么。在第 129~133 行我们找到了答案：

可见，主函数在准备数据阶段，下载了以下 4 个文件：

train-images-idx3-ubyte.gz

train-labels-idx1-ubyte.gz

t10k-images-idx3-ubyte.gz

t10k-labels-idx1-ubyte.gz

它们均位于 ./data/ 目录下。

在一台安装了 TensorFlow 的机器上（无论用哪种方法安装），运行这个例子。在任意目录下执行：

python -m tensorflow.models.image.mnist.convolutional

第一次执行，会下载上述 4 个文件，在运行日志中可以看到：

而后面在相同目录下再运行这个例程，则不会再次重复下载，在运行日志中可以看到：

从此，你在其他目录运行这个例程时，记得把 ./data/ 也一并拷贝过去，这样就能省去下载数据的时间。

除了 MNIST 例程之外，其他例程像 CIFAR10，seq2seq，label_image 等都有这个特点，只是数据存放路径略有不同，需要读者自己研究下代码，找到运行时下载的数据文件，备份它们，方便下次使用。

微信扫描如下二维码关注此公众号！

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
TensorFlow 如何避免重复下载数据 ——转自慢慢学TensorFlow 微信公众号

在运行 TensorFlow 例程时，经常需要下载一些数据文件，有些数据文件比较大，网络条件不好的时候会花费较长时间，而且这段时间干等也不是办法，有没有一种一劳永逸的方法避免重复下载数据呢？答案是肯定的，我们从源码中找找答案。打开 MNIST 例程（https://github.com/tensorflow/tensorflow/blob/r0.12/tensorflow/mo
复制链接

扫一扫

dxmkkk CSDN认证博客专家 CSDN认证企业博客

码龄9年

0: 原创

31万+: 周排名

49万+: 总排名

11万+: 访问

: 等级

1096: 积分

23: 粉丝

20: 获赞

4: 评论

36: 收藏

私信

关注

热门文章

最新评论

TensorFlow 1.0.0rc1上玩量化神经网络 ——转自慢慢学TensorFlow 微信公众号
哈哈大师2017: 您好，我在量化之后转tflite的时候，提示我relu激活函数的最大最小值没有被统计，这该怎么办呢？我加了默认值之后可以转换成功，但是这么做的话是不是就会有很大的误差。错误如下，Array kws_model/KWS_Model/tower_0/CNN_V1/first_bn/FusedBatchNorm_mul_0, which is an input to the Add operator producing the output array kws_model/KWS_Model/tower_0/CNN_V1/Relu, is lacking min/max data, which is necessary for quantization. Either target a non-quantized output format, or change the input graph to contain min/max information, or pass --default_ranges_min= and --default_ranges_max= if you do not care about the accuracy of results.\n' None
TensorFlow 图像数据预处理及可视化
5年1: 作者你好，请教一下，我用Ubuntu16.10，谷歌浏览器，跑你给的这个例子，为什么tensorboard无法显示图片呢？我自己写了一个展示图片的例子，用tensorboard都可以展示
TensorFlow 图像数据预处理及可视化
dxmkkk 回复 jiaocha: 实际上用 Tensor 可以实现任意变换，可以编写自定义的预处理函数
TensorFlow 图像数据预处理及可视化
jiaocha: 作者你好，我看你这里列举的预处理方法都是调用tf的函数做的批量预处理，有什么办法可以自己编辑预处理函数吗

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。