分割大.csv文件

最新推荐文章于 2024-05-30 10:17:04 发布

alan2448

最新推荐文章于 2024-05-30 10:17:04 发布

阅读量2.5k

点赞数 7

分类专栏：推荐系统文章标签：大数据推荐系统人工智能

本文链接：https://blog.csdn.net/alan2448/article/details/113808230

版权

分割大.csv文件

问题描述

做推荐系统研究时，需要处理一个包含10亿条用户数据的10G+的大csv文件，直接用pandas读取，内存不够加载全部数据。想先对大文件进行分割处理后，再逐个文件处理。

解决目标

将csv文件按条目（行）数量进行分割为若干小文件，保存在待分割路径文件夹下。

实现代码

import pandas as pd
from pathlib import Path
############################################
# @ res_file_path 待分割文件路径
res_file_path = Path(r"E:\xxx\xxx.csv")
# @ split_size 分割大小 这里是100万条一个文件
split_size = 10**6
############################################
tar_dir = res_file_path.parent/("split_"+res_file_path.name.split(

最低0.47元/天解锁文章

alan2448

关注

7
点赞
踩
15

收藏

觉得还不错? 一键收藏
0
评论
分割大.csv文件

目录分割大.csv文件问题描述解决目标实现代码核心方法分割大.csv文件问题描述做推荐系统研究时，需要处理一个包含10亿条用户数据的10G+的大csv文件，直接用pandas读取，内存不够加载全部数据。想先对大文件进行分割处理后，再逐个文件处理。解决目标将csv文件按条目（行）数量进行分割为若干小文件，保存在待分割路径文件夹下。实现代码import pandas as pdfrom pathlib import Path###################################
复制链接

扫一扫

专栏目录