我正在写一个脚本,它读取一个文件夹中的文件(每个文件夹的大小从20 MB到100 MB不等),修改每行中的一些数据,然后写回文件的副本。with open(inputPath, 'r+') as myRead:
my_list = myRead.readlines()
new_my_list = clean_data(my_list)
with open(outPath, 'w+') as myWrite:
tempT = time.time()
myWrite.writelines('\n'.join(new_my_list) + '\n')
print(time.time() - tempT)
print(inputPath, 'Cleaning Complete.')
在用一个90mb文件(大约900000行)运行此代码时,它打印140秒作为写入文件所需的时间。在这里我使用了writelines()。所以我寻找了不同的方法来提高文件写入速度,在我阅读的大多数文章中,它都说write()和writelines()不应该显示任何差异,因为我正在编写一个连接字符串。我还检查了所花费的时间,仅用于以下语句:new_string = '\n'.join(new_my_list) + '\n'
它只花了0.4秒,所以花费的大量时间并不是因为创建了列表。
为了尝试write()我尝试了以下代码:with open(inputPath, 'r+') as myRead:
my_list = myRead.readlines()
new_my_list = clean_data(my_list)
with open(outPath, 'w+') as myWrite:
tempT = time.time()
myWrite.write('\n'.join(new_my_list) + '\n')
print(time.time() - tempT)
print(inputPath, 'Cleaning Complete.')
打印了2.5秒。为什么即使是相同的数据,write()和writelines()的文件写入时间有如此大的差异?这是正常行为还是我的代码有问题?两种情况下的输出文件似乎都是相同的,所以我知道数据不会丢失。