【机器学习】基于python对大数据量CSV进行操作

在我们日常学习之中,往往会遇到各种各样的数据。但有时候其庞大的数据量,使得我们无法使用一般的办公软件进行操作,与此同时直接将所有数据取到内存之中,也有存在溢出的风险。所以,在这种情况下,采用逐行存取的方式对数据进行操作是十分必要的。本文简单的使用python最为基础的函数实现以下功能。希望接下来读者,可以根据本文使用适合自己的方式进行数据清洗。

import re
if __name__ == '__main__':
    i = 0
    p = 0
    with open('train_original.csv', 'rb') as fin:
        with open('out.csv', 'w') as fout:
            while True:
                line = fin.readline()
                i = i + 1
                linestr = str(line)
                if re.search(',1,', linestr) == None:
                    fout.writelines(linestr+"\n")
                    p = p + 1
                if not line:
                    break
            print(i, p)

我们采用逐行的方式读取文件,通过line进行操作,将lines转化为字符串,通过re的search函数,判断数据是否应该保留。最后使用fout将数据输出。但是,这个方法只适用于txt以及csv文件。其余的文件,可能还需要具体问题具体分析吧!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值