这是我的情况:
A具有Windows网络共享,我使用mount -t cifs -o username = username,password = password,rw,nounix,iocharset = utf8,file_mode = 0777,dir_mode = 0777 //192.168.1.120/storage / mnt / storage进行挂载
该文件夹包含数量迅速增长的各种大小的文件(几个字节,最大约20MB).如果不移动/删除,此目录中的文件数可能超过1000万.
我需要将具有特定名称(* .fext)的文件(在move_script中)从该目录移动到另一个目录(当前是/ mnt / storage / in_progress目录中的子文件夹).
然后,脚本启动另一个脚本(process_script),该脚本将处理/ mnt / storage / in_progress中的文件.在process_script完成之后,文件再次由move_script移动到另一个子目录(/ mnt / storage / done).继续移动过程,直到源文件夹(/ mnt / storage)不再包含文件为止.
该过程的其他信息:
>当前的瓶颈是文件的移动(文件的移动速度比目录中创建的文件快一点)
if len(os.listdir("/mnt/storage") >= batch_size:
i = 0
for f in os.listdir("/mnt/storage"):
if f.endswith(".fext"):
move("/mnt/storage/+"f","/mnt/storage/in_progress"
i+=1
if i==batch_size:
break
>脚本移动/开始文件的处理,等待处理完成
>批量处理1k-2k文件时,/ mnt / storage / in_progress中的文件处理最快.
>我试图使移动的文件数量不断增长.首先移动1k,然后如果源目录中的文件数量增加,则移动的文件数量将增加一倍.这会减慢process_script中文件的处理速度,但有助于跟上“文件生成器”的速度. .
>我考虑将process_script完成后的子目录/ mnt / storage / in_progress重命名为“ / mnt / storage / done” i_counter,然后创建一个新的/ mnt / storage / in_progress.我认为这将是脚本中移动时间的一半.
为了跟上文件生成器的速度,我需要加快该过程.如何提高此移动操作的性能?
我愿意接受任何建议,并愿意完全改变我目前的方法.
编辑:脚本在debian wheezy上运行,因此理论上我可以使用发布mv的子进程,但是我不知道这样做有多合理.
==========================================
编辑2:
我编写了一个脚本来测试各种移动方法之间的速度差异.
首先创建1x5GB(dd if = / dev / urandom of = / mnt / storage / source / test.file bs = 100M count = 50),然后创建100x5MB(对于{1..100}中的i;执行dd if = / dev / urandom of = / mnt / storage / source / file $i bs = 1M count = 5),最后使用10000x5kB(对于{1..100000}中的i;如果= / dev / urandom of = / mnt /,则执行dd存储/源/文件$i bs = 1k count = 5)
from shutil import move
from os import rename
from datetime import datetime
import subprocess
import os
print("Subprocess mv: for every file in directory..")
s = datetime.now()
for f in os.listdir("/mnt/storage/source/"):
try:
subprocess.call(["mv /mnt/storage/source/"+str(f)+" /mnt/storage/mv"],shell=True)
except Exception as e:
print(str(e))
e = datetime.now()
print("took {}".format(e-s)+"
")
print("Subprocessmv : directory/*..")
s = datetime.now()
try:
subprocess.call(["mv /mnt/storage/mv/* /mnt/storage/mvf"],shell=True)
except Exception as e:
print(str(e))
e = datetime.now()
print("took {}".format(e-s)+"
")
print("shutil.move: for every file file in directory..")
s = datetime.now()
for f in os.listdir("/mnt/storage/mvf/"):
try:
move("/mnt/storage/mvf/"+str(f),"/mnt/storage/move")
except Exception as e:
print(str(e))
e = datetime.now()
print("took {}".format(e-s)+"
")
print("os.rename: for every file in directory..")
s = datetime.now()
for f in os.listdir("/mnt/storage/move/"):
try:
rename("/mnt/storage/move/"+str(f),"/mnt/storage/rename/"+str(f))
except Exception as e:
print(str(e))
e = datetime.now()
print("took {}".format(e-s)+"
")
if os.path.isdir("/mnt/storage/rename_new"):
rmtree('/mnt/storage/rename_new')
print("os.rename & os.mkdir: rename source dir to destination & make new source dir..")
s = datetime.now()
rename("/mnt/storage/rename/","/mnt/storage/rename_new")
os.mkdir("/mnt/storage/rename/")
e = datetime.now()
print("took {}".format(e-s)+"
")
这表明没有太大的区别.5GB文件的移动速度非常快,这告诉我通过更改文件表可以进行移动.这是10000 * 5kB文件的结果(感觉结果取决于当前的网络工作量.例如,第一个mv测试花费了2m 28s,之后是同一个文件3m 22s,也是os.rename()最快的多数情况下是方法.):
Subprocess mv: for every file in directory..
took 0:02:47.665174
Subprocessmv : directory/*..
took 0:01:40.087872
shutil.move: for every file file in directory..
took 0:01:48.454184
os.rename: for every file in directory..
rename took 0:02:05.597933
os.rename & os.mkdir: rename source dir to destination & make new source dir..
took 0:00:00.005704