pandas中的read_csv()中的用于批量读取数据的参数以及如何修改字段内容并写入一csv文件中

最新推荐文章于 2023-04-07 11:19:24 发布

进击的小菜鸡dd

最新推荐文章于 2023-04-07 11:19:24 发布

阅读量2.8k

点赞数 1

文章标签： pandas 批量处理数据 python read_csv参数

本文链接：https://blog.csdn.net/gosline/article/details/87878593

版权

本文介绍了pandas的read_csv()函数中iterator=True和chunksize参数的用法，结合get_chunk()方法进行批量数据读取。讲解了如何在读取数据后进行内容修改，并将修改后的数据写入新的CSV文件。

摘要由CSDN通过智能技术生成

1. iterator=True(配合get_chunk方法一块使用)

import pandas as pd

df = pd.read_csv("D:\data.csv", encoding="utf-8", error_bad_lines=False, iterator=True)  
 # iterator=True参数配合get_chunk()批量读取数据
print(type(df))  #  此时df对象的类型TextFileReader
 
chunk = df.get_chunk(10)  #获取前10条数据 
chunk = df.get_chunk(10)  #获取11-20条数据

注意 : get_chunk()方法一般查看数据时使用！

所以如果想要读取全部数据并修改的话，我们可以这样增加chunksize属性：

import pandas as pd
df = pd.read_csv("D:\data.csv", encoding="utf-8",
                 error_bad_lines=False, chunksize=5000, iterator=True)
''' chunksize=5000含义为每次往内存中读入5000条数据进行操作，直到读完为止，
    假如data.csv中有100000条数据，那么会读取20次，这样可以大大节约内存，如
    何data.csv中数据太大的话，直接将所有数据读取的话会占用很大的内存 '''
# print(type(df))  #此时df对象的类型 DataFrame
flag = 1
for chunk in df: