小内存读取大数据

问题:4G 内存怎么读取一个 5G 的数据?

方法一:

可以通过生成器,分多次读取,每次读取数量相对少的数据(比如 500MB)进行处理,处理结束后再读取后面的 500MB 的数据。

def get_lines_1():
    my_list = []
    with open("file.txt", "r") as f:
        for eachline in f:
            my_list.append(eachline)
    return my_list


def get_lines_2():
    with open("file.txt", "r") as f:
        while True:
            data = f.readlines(10)
            if not data:
                break
            yield data


if __name__ == '__main__':
    for e in get_lines_1():
        print(e)  # 处理每一行数据
    print("*" * 50)
    for e in get_lines_2():
        print(e)

方法二:

可以通过 linux 命令 split 切割成小文件,然后再对数据进行处理,此方法效率比较高。可以按照行数切割,可以按照文件大小切割。

详细过程请点击 ☞ https://blog.csdn.net/apollo_miracle/article/details/84143921

 

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值