分割大.csv文件
问题描述
做推荐系统研究时,需要处理一个包含10亿条用户数据的10G+的大csv文件,直接用pandas读取,内存不够加载全部数据。想先对大文件进行分割处理后,再逐个文件处理。
解决目标
将csv文件按条目(行)数量进行分割为若干小文件,保存在待分割路径文件夹下。
实现代码
import pandas as pd
from pathlib import Path
############################################
# @ res_file_path 待分割文件路径
res_file_path = Path(r"E:\xxx\xxx.csv")
# @ split_size 分割大小 这里是100万条一个文件
split_size = 10**6
############################################
tar_dir = res_file_path.parent/("split_"+res_file_path.name.split(