CSV指南：使用Pandas库分割大型CSV文件

孤独打铁匠Julian

已于 2024-02-27 15:24:47 修改

阅读量2.7k

点赞数 11

文章标签： python 笔记经验分享 pandas

于 2024-02-27 15:07:19 首次发布

本文链接：https://blog.csdn.net/qq_59629101/article/details/136323083

版权

处理非常大的CSV文件时，直接操作整个文件可能会非常困难，特别是当文件大小超过了你的计算机内存时。一个常见的解决方案是将大文件分割成多个小文件，这样可以更容易地进行数据处理和分析。

准备工作

在开始之前，你需要确保你的计算机上安装了Python和Pandas库。Pandas是一个强大的数据分析和处理库，在处理CSV文件时尤其有用。

如果你还没有安装Pandas，可以通过在终端或命令提示符中运行以下命令来安装：

pip install pandas

编写Python程序

下面是一个Python脚本示例，它将读取一个大型CSV文件，并将其分割成每个包含600万行的多个小文件。每个小文件将按顺序命名（例如data1.csv, data2.csv等）。

import pandas as pd

def split_csv(file_path, output_dir, rows_per_file=6000000):
    """
    分割大型CSV文件，并将分割后的文件保存到指定目录。

    参数:
    - file_path (str): 原始CSV文件的路径。
    - output_dir (str): 分割后的文件保存的目录。
    - rows_per_file (int): 每个分割文件包含的行数，默认为600万行。
    """
    # 使用Pandas读取CSV文件，chunksize定义了每个块的行数
    chunk_iterator = pd.read_csv(file_path, chunksize=