在Colab中如何上传并使用数据集
在使用Colab时不可避免地要上传本地数据集文件并使用,在Colab中调用本地数据集的方法主要有两种,一是先将数据集上传到GitHub上,然后通过Colab命令调用GitHub上的数据集文件,第二种是直接将数据集文件上传到Google Drive上,个人感觉第二种更为方便,这里针对第二种方法简单介绍一下。
首先需要能够访问Google Drive和Colab,然后将数据集文件上传到Google Drive中。众所周知,如果想要使用Colab运行深度学习项目,首先必须在Google Drive中新建Google Colaboratory文件,这个文件类似Jupyter Notebook文件,所有的项目代码实现都在这里完成。下面重点来了,进入到Colaboratory文件后,如何使用刚刚上传的数据集文件。
主要步骤:
- 点击左边栏文件夹按钮,找到数据集所在文件夹,右击文件夹名称,复制文件路径。比如在本例中,复制citation文件路径为/content/drive/MyDrive/LightGCN-PyTorch/data/citation
- 在代码框中定义文件夹路径,这一点和我们在自己电脑上处理本地时相同
- 测试能否正常读取文件
输出第一行数据,输出信息如下:import os # 设置训练集文件名 train_file = os.path.join(file_path, 'train.txt') with open(train_file) as records: for record in records: print(record) break
0 41 14 27 28 38 8 12 51 49 52 24 13 44 40 19 55 23 54 36 37 57 1 6 22 17 45 0 42 43 35 46 21 4 48 31 10 18 16 58 26 20 9 29 47 39 30 11
总结:
关键还是第一步,其实只要确定了文件在Google Drive中的位置,其他和在自己的电脑上操作文件相同。总的来说,Colab还是想当方便的。