最近,在玩一个kaggle项目,把代码在colab上面跑。没想到输入文件过大,直接在colab左侧面板那里上传,不一会儿就因为网络断开而作废。离谱的是,断开之后你依然能看到新增了一个文件,名字也和你打算取的名字一样。你满心欢喜地认为你上传成功整个文件了,但是这个文件是不完整的,比如说,文件有1G大小,截止断开之时上传了500M,那么新增的文件其实就只有500M数据,还有一部分根本没传上来!!
解决办法:在google 云端硬盘里上传,大规模文件一般是被压缩的,我上传的是zip压缩格式的文件,如下图,
然后在colab左侧面板你就能看到这个刚刚上传的文件了,然后读取文件,比如
使用pandas.read_csv(’/content/drive/MyDrive/train.csv.zip’)命令读取你的训练数据集至pandas的表格中。