【机器学习】基于python对大数据量CSV进行操作_用python求数据集中data.csv中一共有多少辆车issi csq zone-CSDN博客

本文链接：https://blog.csdn.net/GBF1996/article/details/84032304

在我们日常学习之中，往往会遇到各种各样的数据。但有时候其庞大的数据量，使得我们无法使用一般的办公软件进行操作，与此同时直接将所有数据取到内存之中，也有存在溢出的风险。所以，在这种情况下，采用逐行存取的方式对数据进行操作是十分必要的。本文简单的使用python最为基础的函数实现以下功能。希望接下来读者，可以根据本文使用适合自己的方式进行数据清洗。

import re
if __name__ == '__main__':
    i = 0
    p = 0
    with open('train_original.csv', 'rb') as fin:
        with open('out.csv', 'w') as fout:
            while True:
                line = fin.readline()
                i = i + 1
                linestr = str(line)
                if re.search(',1,', linestr) == None:
                    fout.writelines(linestr+"\n")
                    p = p + 1
                if not line:
                    break
            print(i, p)

我们采用逐行的方式读取文件，通过line进行操作，将lines转化为字符串，通过re的search函数，判断数据是否应该保留。最后使用fout将数据输出。但是，这个方法只适用于txt以及csv文件。其余的文件，可能还需要具体问题具体分析吧！