Python处理千万级csv大文件：使用多线程加快处理速度

rubyw

已于 2023-08-23 10:27:12 修改

阅读量1.8k

点赞数 1

分类专栏： python 文章标签： python 开发语言数据分析大数据 pandas

于 2023-08-18 17:11:49 首次发布

本文链接：https://blog.csdn.net/rubyw/article/details/132364985

版权

python 专栏收录该内容

12 篇文章 1 订阅

订阅专栏

一、思路

源数据文件有3600多万条数据，占内存3.73GB，数据量很大，一般方式肯定很难打开和操作。
大部分数据都不是需要用的，只有小部分数据需要，所以没有全部都需要打开进行操作的必要。
即使用分割工具进行分割，但由于数据量太大会需要分割太多个文件，一个个打开操作也不方便，还容易卡死。
所以最终还是选择使用python脚本实现，同时使用python的多线程方法提高运行速度。

整体需求如下：

分割CSV大文件为多个小文件：根据需要，将大文件分割成多个小文件。
读取并处理每个小CSV文件：读取每个小文件，对指定列进行去重操作。
合并小CSV文件：将处理后的小文件合并成一个大文件。
最终去重：在合并的大文件中，再次对指定列进行去重。
保存为Excel文件：将最终去重后的数据保存为Excel文件。

二、代码实现

import pandas as pd
import os
from concurrent.futures import ThreadPoolExecutor

# 指定工作目录
desired_dir = "C:\\Users\\18703\\Desktop\\merge_detail" #替换成自己的工作路径
os.chdir(desired_dir)
print("当前工作路径为：", os.getcwd())


# 现在当前工作目录已经改变为指定的目录


# 步骤1：分割CSV文件为多个小文件
def split_large_csv(input_file, output_folder, chunk_size):
    if not os.path.exists(output_folder):
        os.makedirs(output_folder)

    chunk_number = 0
    print("准备读取数据，开始分割大文件！")
    # 使用chunksize方法进行分割
    for chunk in pd.read_csv(input_file, chunksize=chunk_size, encoding='GB2312', low_memory=False):
        chunk.to_csv(os.path.join(output_folder, f'chunk_{chunk_number}.csv'), index=False, encoding='GB2312')
        chunk_number += 1
        print("已分割第%d个文件" % chunk_number)

# 步骤2：读取并处理每个小CSV文件
def process_and_deduplicate_chunk(chunk_path, output_folder):
    df = pd.read_csv(chunk_path, encoding='GB2312') # encoding根据自己文件的具体情况填写
    columns_to_deduplicate = ['主产品名称', '子产品名称', '播放时长占比(%)']
    df_extract = df[columns_to_deduplicate]
    df_deduplicated = df_extract.drop_duplicates(subset=columns_to_deduplicate, keep='first')
    output_path = os.path.join(desired_dir, output_folder, f'deduplicated_{os.path.basename(chunk_path)}')
    df_deduplicated.to_csv(output_path, index=False, encoding='GB2312')

# 步骤3：合并小CSV文件
def merge_deduplicated_chunks(input_folder, output_file):
    print("处理小文件完成，开始合并！")
    all_dfs = []
    for deduplicated_file in os.listdir(input_folder):
        if deduplicated_file.startswith('deduplicated_'):
            deduplicated_path = os.path.join(input_folder, deduplicated_file)
            df = pd.read_csv(deduplicated_path, encoding='GB2312')
            all_dfs.append(df)
    print("合并完成，开始处理合并后的文件！")
    combined_df = pd.concat(all_dfs, ignore_index=True)
    columns_to_deduplicate = ['主产品名称', '子产品名称', '播放时长占比(%)']
    final_df = combined_df.drop_duplicates(subset=columns_to_deduplicate, keep='first') #合并后再次去重
    print("处理合并文件结束！")
    final_df.to_excel(output_file, index=False, encoding='utf-8')

# 设置参数
input_csv_file = "merge_detail_202306.csv"  #源文件名称
output_split_folder = 'split_chunks'  #分割后存放小文件的文件夹名称
output_deduplicated_folder = 'deduplicated_chunks'  #处每个理小文件去重后存放的文件夹名称
final_output_excel = 'final_deduplicated_data.xlsx'  #存放最终处理结果的excel名称
chunk_size = 1000000  # 根据需求调整分割大小（看自己电脑情况，这里我不想分的太多）

if not os.path.exists(output_deduplicated_folder):
    os.makedirs(output_deduplicated_folder)

# 执行步骤1
split_large_csv(input_csv_file, output_split_folder, chunk_size)

# 执行步骤2 - 多线程处理
with ThreadPoolExecutor() as executor:
    print("开始处理每个小文件！")
    chunk_paths = [os.path.join(desired_dir, output_split_folder, chunk_file) for chunk_file in os.listdir(os.path.join(desired_dir, output_split_folder))]
    for chunk_path in chunk_paths:
        executor.submit(process_and_deduplicate_chunk(chunk_path, output_deduplicated_folder))

# 执行步骤3、4、5
merge_deduplicated_chunks(output_deduplicated_folder, final_output_excel)

print("处理完成！")