近期在做深度学习相关模型训练时,由于本地电脑不够强大,所以选择了可以每天免费使用12小时的google colab环境,为了保持模型文件和训练数据文件,需要将其与google driver配合使用。然而在使用的过程中发现对于较大的数据(如训练数据集、训练的模型数据等),通常会存在google colab虚拟机中网盘文件与真实的google网盘文件不同步的情况。这样在退出虚拟机时会导致数据丢失,从而使相关操作的数据不能及时上传到google网盘中。这一问题是使用google colab时会不断遇到的问题,那么如何进行强制同步呢?具体操作步骤如下:
1、挂载google dirve时,使用如下命令:
from google.colab import drive
drive.mount('/content/drive',force_remount=True)
2、在进行数据获取和存储时,使用如下命令:
在此以获取和解压缩VOC2012数据集为例,数据集为tar压缩格式,大小为2GB,一般来说直接通过本地上传google网盘的速度很慢而且会断网,所以直接从数据集服务器上下载到google网盘中,不经过国内网络,速度能达到1-2Mbps,但是如果直接在网盘上解压需要收费,所以在colab中解压,但问题是解压的文件网盘上没有,它们无法同步。
#下载数据集
!wget http://host.robots.ox.ac.uk/pascal/VOC/voc2012/VOCtrainval_11-May-2012.tar
#虚拟机colab中解压
!tar -xvf 'VOCtrainval_11-May-2012.tar'
#实现对网盘的同步
drive.flush_and_unmount()