pandas 转化np数据_用Python遍历文件夹下的所有文件并进行数据处理(Pathlib简介)...

本文介绍了如何使用Python的pandas和pathlib库遍历文件夹,读取并处理大量数据文件。通过示例展示了如何分析每个文件中的数据,计算指定指标,并最终生成数据分析报告。同时,对比了os库和pathlib库在遍历文件上的差异,强调了pathlib的便捷性。
摘要由CSDN通过智能技术生成

d4bd886eddd254d7a3bc844d978b58ea.png

在数据分析的日常工作中,我们可能会经常需要处理这样的问题:将一个或多个文件夹下的文件中的数据进行分析、处理、整合。这些文件通常是相似的或是同类别的,比如我们有多个月份的销售信息,每个月份的数据分别存在一个excel文档中;多个类别的销售信息,每个类的数据分别存在一个excel文档中等等。像是如图中所示:

8a6ad60306f656637e541fcc796f81ea.png

在当前文件夹中存在“files”文件夹,里面是我们将要分析的数据,在该文件夹目录下又有如下四个文件夹,我们可以看作是四个大类的数据:

b758640acfc85357225ac1eb83f34c9f.png

这四个文件夹当中就分别存放着所对应的数据,随便打开其中一个文件夹,数据文件如图所示:

94852ad80b431165b20fce3310962e07.png

其中每个文件的内容大致是相同:

bf7ba3460f439702c2401865cc60d4b5.png

所有文件共有128个,每个文件中条目数在几百行,我们需要分别对这些文件中的数据进行分析,求出每个文件中所属类目的起始日期、终止日期、平均转化率、平均客单价,然后汇总到一起输出一份数据分析报告。如果用excel来一个个处理的话需要处理128次,想想就觉得费力啊!那么这个时候用上我们的pandas就再合适不过了。这个时候有些朋友会有些疑惑,我们该如何遍历这些文件并读取数据呢?本文就通过os库以及pathlib库为大家讲解,并在最后重点介绍一下pathlib。

首先导入我们需要使用到的库:

import pandas as pdimport numpy as npimport osfrom pathlib import Pathimport time

设置自己存放文件的根目录:

file_path = "/Users/***/jupyter_notebook/Python_file_processing/files"

先用os的方法&

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值