百度AI Studio 数据集加载，以及如何使用加载的数据集。

最新推荐文章于 2024-08-15 00:37:03 发布

青峰不长存

最新推荐文章于 2024-08-15 00:37:03 发布

阅读量9.3k

点赞数 8

文章标签： tensorflow python

本文链接：https://blog.csdn.net/qq_44644355/article/details/106477672

版权

（懒得编排了，将就着看一下）

1.进入百度AI Studio，创建一个新项目
在这里插入图片描述
然后我们就可以将数据集传入了（我上传的是zip文件）

这样子我们就创建好一个数据集了
启动我们的环境，并进入，我们可以在下面图片位置看到我们的数据集

新建一个py文件，并输入代码
通过下面这段代码我们将数据集惊醒解压，并保存到另一个文件夹下面
（我在data下面新建一个data文件夹，我保存的位置是data/data）

import zipfile

# zip_src: 需要解压的文件路径
# dst_dir: 解压后文件存放路径
def unzip_file(zip_src, dst_dir):
	r = zipfile.is_zipfile(zip_src)
	if r:
		fz = zipfile.ZipFile(zip_src, 'r')
		for file in fz.namelist():
			fz.extract(file, dst_dir)
	else:
		print('This is not a zip file !!!')


unzip_file('./data/data38220/imdb.zip', './data/data')

这样子我们就将数据集解压了，
然后我们在加载数据的时候可以通过指定路径来加载我们数据集的文件

例如我要加载imdb数据集，我就先运行上面那段代码，将我的imdb.zip数据集解压
解压之后会有一个imdb.npz, 然后指定路径进行加载代码如下所示：

import tensorflow as tf
from tensorflow import keras
from tensorflow.keras import datasets, layers, Sequential, optimizers

total_words = 10000
max_review_len = 80
batchsz = 128
embedding_dim = 100
(x,y),(x_test,y_test) = datasets.imdb.load_data(path='/home/aistudio/data/data/imdb.npz',num_words=total_words)
print(x.shape)