问题:4G 内存怎么读取一个 5G 的数据?
方法一:
可以通过生成器,分多次读取,每次读取数量相对少的数据(比如 500MB)进行处理,处理结束后再读取后面的 500MB 的数据。
def get_lines_1():
my_list = []
with open("file.txt", "r") as f:
for eachline in f:
my_list.append(eachline)
return my_list
def get_lines_2():
with open("file.txt", "r") as f:
while True:
data = f.readlines(10)
if not data:
break
yield data
if __name__ == '__main__':
for e in get_lines_1():
print(e) # 处理每一行数据
print("*" * 50)
for e in get_lines_2():
print(e)
方法二:
可以通过 linux 命令 split 切割成小文件,然后再对数据进行处理,此方法效率比较高。可以按照行数切割,可以按照文件大小切割。
详细过程请点击 ☞ https://blog.csdn.net/apollo_miracle/article/details/84143921