使用joblib并行处理，快速读入几千个csv文件，合并为单一DataFrame

最新推荐文章于 2024-06-06 18:23:34 发布

bluelightning99

最新推荐文章于 2024-06-06 18:23:34 发布

阅读量1.1k

点赞数

分类专栏： python 文章标签： python 大数据

本文链接：https://blog.csdn.net/u011195887/article/details/108434748

版权

使用joblib并行处理，快速读入几千个csv文件，合并为单一DataFrame

问题
- 效率低下的串行读入
- 使用joblib并行处理，16秒完成全部文件读入合并

问题

3700多个结构相同的csv文件，通过Python代码读入，合并为单一的DataFrame，再进行后续处理

效率低下的串行读入

初始的方法是把3700多个文件，创建一个文件列表，然后遍历列表，读入，并进行合并：

    for file in file_list:
        filename = os.path.join(file_path, file)
        file_split = os.path.splitext(file)
        df_tmp = pd.read_csv(filename, names=columns, encoding

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

bluelightning99

关注关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
2
评论
使用joblib并行处理，快速读入几千个csv文件，合并为单一DataFrame

使用joblib并行处理，快速读入几千个csv文件，合并为单一DataFrame问题效率低下的串行读入使用joblib并行处理，16秒完成全部文件读入合并问题3700多个结构相同的csv文件，通过Python代码读入，合并为单一的DataFrame，再进行后续处理效率低下的串行读入初始的方法是把3700多个文件，创建一个文件列表，然后遍历列表，读入，并进行合并： for file in file_list: filename = os.path.join(file_path,
复制链接

扫一扫