最近在做Bert预训练领域内数据的相关调研涉及到几十G的数据传输问题,所以简单说一下,个人在服务器之间常见的数据传输方法,以及速度对比;
-
rz/sz
这种方法适合小数据集,比较便捷的数据传输方法; -
个人比较推崇,还是通过创建HTTPServer的方式来完成服务器之间的数据传输;
-
具体流程如下:
1、切换到数据存放目录;
2、在数据服务器上数据目录下,创建HTTPServer;
python -m SimpleHTTPServer 8888
3、登录模型训练的指定服务器,并切换到指定目录;
4、执行相关命令,实现服务期间的数据传输;
curl -O graph-pre.local:8888/gg.bz2
5、数据传输完成,并杀死相关进程;