数据处理：一个pandas批量读取文件夹的目标数据的示例

最新推荐文章于 2024-06-16 22:13:43 发布

NNNightglow

最新推荐文章于 2024-06-16 22:13:43 发布

阅读量1.3k

点赞数 9

文章标签： pandas python 开发语言

本文链接：https://blog.csdn.net/NNNightglow/article/details/133801245

版权

一、任务：提取目标文件里的目标行，并对其格式进行统一

需要将目标文件Item Number为的行筛选出来

[1234, 2345, 4567，6789，7890]

二、查看数据

先查看数据，目标文件一个为csv、一个为xls、一个为xlsx

查看数据格式

Cost列需要转化为数值去除'$'和','，Date列格式需要统一为'%Y-%m-%d'

三、问题分析

首先，我们需要将目标文件遍历读取，也就是读取文件夹中的xls、csv、xlsx文件以及写有需要查找的目标的文件。

然后，将文件转化成dataframe格式。

由于不是所有文件都有['Item Number']这列，所以如果直接索引会报错，导致程序中断。因此，在这里加入一个异常处理，如果遇到没有['Item Number']这列的文件，跳过该次循环，对下一个文件进行读取；如果有这一列，则该次循环继续。

接着，对数据格式进行处理。$2,300.00，虽然为数值格式，但为货币格式，我们先将其转化为字符串，将'$',','剔除，再转化为数值。对于日期格式，先转化为datetime格式，再转化为目标格式。

将文件写入。

三、程序编写

首先，导入需要的库

其次，需要将目标文件夹路径、需要查找的number的文件、需要写入的文件路径写出。这里根据自己文件路径写。将文件放在jupyter目录下即可。

item_number_file='./数据处理/item_numbers_to_find.csv'
path_to_folder='./数据处理'
output_file='./output_files/1app_output.csv'

读取需要查找的number的文件

item_number_to_find=pd.read_csv(item_number_file,header=None).values.ravel().tolist()

ravel为将值展开，否则读取的值将为,无法与文件匹配。tolist将其转化为列表

[[1234.0], [2345.0], [4567.0], [6789.0], [7890.0]]

打开要写入的文件，使用with open打开，能够多次写入

#打开output_file,多次写入csv文件
with open(output_file,'w',newline='') as file:

使用glob获取指定文件夹下的所有文件路径，并通过os.path.join()函数构建文件路径。然后，使用for循环遍历这些文件路径。其中os.path.join()意思是将path_to_path连接在一起，’*‘为任意文件夹的意思。使用if对不同文件分别读取。

其中对于xls文件，里面有多个工作簿，设置参数sheet_name=None,index_col=None，不读取工作簿的名称和重新设置索引，方便后面将多个工作簿连接成一个。创建一个空列表 data_frame，用于存储每个工作表的数据。

然后，通过 for 循环遍历 all_worksheets 字典的键值对。items() 方法返回一个包含字典中所有键值对的列表，其中每个键值对表示一个工作表的名称和对应的数据。在循环中，将每个工作表的数据 data 添加到 data_frame 列表中。

最后，使用 pd.concat() 函数将 data_frame 列表中的所有数据按行合并，并创建一个包含所有工作表数据的 DataFrame 对象 df。axis=0 参数表示按行合并，ignore_index=True 参数表示重置合并后的 DataFrame 的索引。

for input_file in glob.glob(os.path.join(path_to_folder,'*')):
        file_counter+=1
        #其中的[2]可能根据文件名的不同来选择尾缀即可
        if input_file.split('.')[2]=='csv':
            df=pd.read_csv(input_file)
        elif input_file.split('.')[2]=='xls':
            all_worksheets=pd.read_excel(input_file,sheet_name=None,index_col=None)
            data_frame=[]
            for worksheet_name ,data in all_worksheets.items():
                data_frame.append(data)
            df=pd.concat(data_frame,axis=0,ignore_index=True)

异常处理

 #有的文件没有Item Number这列，直接df['Item Number']会报错，因此这里采用一个异常处理，使程序不中断
        try: 
            df['Item Number']
        except KeyError:continue
        print(input_file)

数据格式处理

首先，代码使用 astype(str) 将 df['Cost'] 列的数据类型转换为字符串类型。然后，使用 str.replace(',', '') 将字符串中的逗号去除，使用 str.strip('$') 去除字符串两端的美元符号，并最后使用 astype(float) 将字符串转换为浮点数类型。这一系列操作的目的是将 Cost 列中的数值格式从带有逗号和美元符号的字符串转换为浮点数格式。

接下来，代码使用 pd.to_datetime() 函数将 df['Date'] 列的数据类型转换为日期时间类型。infer_datetime_format=True 参数表示尝试自动推断日期时间格式。

最后，代码使用 dt.strftime('%Y-%m-%d') 将 df['Date'] 列中的日期时间格式转换为指定的字符串格式 %Y-%m-%d，即年-月-日的形式。

因此，这段代码的作用是针对 DataFrame 对象中的 Cost 列和 Date 列进行不同的数据格式处理，将 Cost 列中的数值格式转换为浮点数格式，将 Date 列中的日期时间格式转换为指定的字符串格式。

#针对不同数据格式处理
df['Cost'] = df['Cost'].astype(str).str.replace(',','').str.strip('$').astype(float)
df['Date'] = pd.to_datetime(df['Date'], infer_datetime_format=True)
df['Date'] = df['Date'].dt.strftime('%Y-%m-%d')

提取目标行，并将目标行写入output_file。使用 df['Item Number'].isin(item_number_to_find) 条件来筛选出 DataFrame df 中 Item Number 列的值在 item_number_to_find 列表中的行。这将返回一个布尔索引，其中值为 True 的行表示满足条件的行。

filewriter=df[df['Item Number'].isin(item_number_to_find)]
filewriter.to_csv(output_file,index=False,mode='a',header=None)

也可以使用index来索引目标行 _为index行索引，i为['Item Number']列的值

for _,i in df['Item Number'].iteritems():
     if i in item_number_to_find:
          filewriter.writerow(df.iloc[_].tolist())
          count_of_item_numbers+=1

完整代码

import glob
import os
from datetime import date
import pandas as pd

item_number_file='./数据处理/item_numbers_to_find.csv'
path_to_folder='./数据处理'
output_file='./output_files/1app_output.csv'

#需要找的目标
item_number_to_find=pd.read_csv(item_number_file,header=None).values.ravel().tolist()
print(item_number_to_find)

#打开output_file,多次写入csv文件
with open(output_file,'w',newline='') as file:
    file_counter=0
    for input_file in glob.glob(os.path.join(path_to_folder,'*')):
        file_counter+=1
        #其中的[2]可能根据文件名的不同来选择尾缀即可
        if input_file.split('.')[2]=='csv':
            df=pd.read_csv(input_file)
        elif input_file.split('.')[2]=='xls':
            all_worksheets=pd.read_excel(input_file,sheet_name=None,index_col=None)
            data_frame=[]
            for worksheet_name ,data in all_worksheets.items():
                data_frame.append(data)
            df=pd.concat(data_frame,axis=0,ignore_index=True)
        
        #有的文件没有Item Number这列，直接df['Item Number']会报错，因此这里采用一个异常处理，使程序不中断
        try: 
            df['Item Number']
        except KeyError:continue
        print(input_file)
        
        #针对不同数据格式处理
        df['Cost'] = df['Cost'].astype(str).str.replace(',','').str.strip('$').astype(float)
        df['Date'] = pd.to_datetime(df['Date'], infer_datetime_format=True)
        df['Date'] = df['Date'].dt.strftime('%Y-%m-%d')
        
        filewriter=df[df['Item Number'].isin(item_number_to_find)]
        filewriter.to_csv(output_file,index=False,mode='a',header=None)

        
print("Number of files",file_counter)