数据处理:一个pandas批量读取文件夹的目标数据的示例

一、任务:提取目标文件里的目标行,并对其格式进行统一 

需要将目标文件Item Number为的行筛选出来

[1234, 2345, 4567,6789,7890]

二、查看数据

先查看数据,目标文件一个为csv、一个为xls、一个为xlsx

查看数据格式

 Cost列需要转化为数值去除'$'和',',Date列格式需要统一为'%Y-%m-%d'

三、问题分析

首先,我们需要将目标文件遍历读取,也就是读取文件夹中的xls、csv、xlsx文件以及写有需要查找的目标的文件。

然后,将文件转化成dataframe格式。

由于不是所有文件都有['Item Number']这列,所以如果直接索引会报错,导致程序中断。因此,在这里加入一个异常处理,如果遇到没有['Item Number']这列的文件,跳过该次循环,对下一个文件进行读取;如果有这一列,则该次循环继续。

接着,对数据格式进行处理。$2,300.00,虽然为数值格式,但为货币格式,我们先将其转化为字符串,将'$',','剔除,再转化为数值。对于日期格式,先转化为datetime格式,再转化为目标格式。

将文件写入。

三、程序编写

首先,导入需要的库

其次,需要将目标文件夹路径、需要查找的number的文件、需要写入的文件路径写出。这里根据自己文件路径写。将文件放在jupyter目录下即可。

item_number_file='./数据处理/item_numbers_to_find.csv'
path_to_folder='./数据处理'
output_file='./output_files/1app_output.csv'

 读取需要查找的number的文件

item_number_to_find=pd.read_csv(item_number_file,header=None).values.ravel().tolist()

 ravel为将值展开,否则读取的值将为,无法与文件匹配。tolist将其转化为列表

[[1234.0], [2345.0], [4567.0], [6789.0], [7890.0]]

打开要写入的文件,使用with open打开,能够多次写入

#打开output_file,多次写入csv文件
with open(output_file,'w',newline='') as file:

 使用glob获取指定文件夹下的所有文件路径,并通过os.path.join()函数构建文件路径。然后,使用for循环遍历这些文件路径。其中os.path.join()意思是将path_to_path连接在一起,’*‘为任意文件夹的意思。使用if对不同文件分别读取。

其中对于xls文件,里面有多个工作簿,设置参数sheet_name=None,index_col=None,不读取工作簿的名称和重新设置索引,方便后面将多个工作簿连接成一个。创建一个空列表 data_frame,用于存储每个工作表的数据。

然后,通过 for 循环遍历 all_worksheets 字典的键值对。items() 方法返回一个包含字典中所有键值对的列表,其中每个键值对表示一个工作表的名称和对应的数据。在循环中,将每个工作表的数据 data 添加到 data_frame 列表中。

最后,使用 pd.concat() 函数将 data_frame 列表中的所有数据按行合并,并创建一个包含所有工作表数据的 DataFrame 对象 dfaxis=0 参数表示按行合并,ignore_index=True 参数表示重置合并后的 DataFrame 的索引。

for input_file in glob.glob(os.path.join(path_to_folder,'*')):
        file_counter+=1
        #其中的[2]可能根据文件名的不同来选择尾缀即可
        if input_file.split('.')[2]=='csv':
            df=pd.read_csv(input_file)
        elif input_file.split('.')[2]=='xls':
            all_worksheets=pd.read_excel(input_file,sheet_name=None,index_col=None)
            data_frame=[]
            for worksheet_name ,data in all_worksheets.items():
                data_frame.append(data)
            df=pd.concat(data_frame,axis=0,ignore_index=True)

异常处理 

 #有的文件没有Item Number这列,直接df['Item Number']会报错,因此这里采用一个异常处理,使程序不中断
        try: 
            df['Item Number']
        except KeyError:continue
        print(input_file)

数据格式处理

首先,代码使用 astype(str) 将 df['Cost'] 列的数据类型转换为字符串类型。然后,使用 str.replace(',', '') 将字符串中的逗号去除,使用 str.strip('$') 去除字符串两端的美元符号,并最后使用 astype(float) 将字符串转换为浮点数类型。这一系列操作的目的是将 Cost 列中的数值格式从带有逗号和美元符号的字符串转换为浮点数格式。

接下来,代码使用 pd.to_datetime() 函数将 df['Date'] 列的数据类型转换为日期时间类型。infer_datetime_format=True 参数表示尝试自动推断日期时间格式。

最后,代码使用 dt.strftime('%Y-%m-%d') 将 df['Date'] 列中的日期时间格式转换为指定的字符串格式 %Y-%m-%d,即年-月-日的形式。

因此,这段代码的作用是针对 DataFrame 对象中的 Cost 列和 Date 列进行不同的数据格式处理,将 Cost 列中的数值格式转换为浮点数格式,将 Date 列中的日期时间格式转换为指定的字符串格式。

#针对不同数据格式处理
df['Cost'] = df['Cost'].astype(str).str.replace(',','').str.strip('$').astype(float)
df['Date'] = pd.to_datetime(df['Date'], infer_datetime_format=True)
df['Date'] = df['Date'].dt.strftime('%Y-%m-%d')
        

提取目标行,并将目标行写入output_file。使用 df['Item Number'].isin(item_number_to_find) 条件来筛选出 DataFrame df 中 Item Number 列的值在 item_number_to_find 列表中的行。这将返回一个布尔索引,其中值为 True 的行表示满足条件的行。

filewriter=df[df['Item Number'].isin(item_number_to_find)]
filewriter.to_csv(output_file,index=False,mode='a',header=None) 

也可以使用index来索引目标行 _为index行索引,i为['Item Number']列的值

for _,i in df['Item Number'].iteritems():
     if i in item_number_to_find:
          filewriter.writerow(df.iloc[_].tolist())
          count_of_item_numbers+=1

完整代码 

import glob
import os
from datetime import date
import pandas as pd

item_number_file='./数据处理/item_numbers_to_find.csv'
path_to_folder='./数据处理'
output_file='./output_files/1app_output.csv'

#需要找的目标
item_number_to_find=pd.read_csv(item_number_file,header=None).values.ravel().tolist()
print(item_number_to_find)

#打开output_file,多次写入csv文件
with open(output_file,'w',newline='') as file:
    file_counter=0
    for input_file in glob.glob(os.path.join(path_to_folder,'*')):
        file_counter+=1
        #其中的[2]可能根据文件名的不同来选择尾缀即可
        if input_file.split('.')[2]=='csv':
            df=pd.read_csv(input_file)
        elif input_file.split('.')[2]=='xls':
            all_worksheets=pd.read_excel(input_file,sheet_name=None,index_col=None)
            data_frame=[]
            for worksheet_name ,data in all_worksheets.items():
                data_frame.append(data)
            df=pd.concat(data_frame,axis=0,ignore_index=True)
        
        #有的文件没有Item Number这列,直接df['Item Number']会报错,因此这里采用一个异常处理,使程序不中断
        try: 
            df['Item Number']
        except KeyError:continue
        print(input_file)
        
        #针对不同数据格式处理
        df['Cost'] = df['Cost'].astype(str).str.replace(',','').str.strip('$').astype(float)
        df['Date'] = pd.to_datetime(df['Date'], infer_datetime_format=True)
        df['Date'] = df['Date'].dt.strftime('%Y-%m-%d')
        
        filewriter=df[df['Item Number'].isin(item_number_to_find)]
        filewriter.to_csv(output_file,index=False,mode='a',header=None)

        
print("Number of files",file_counter)

  • 9
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值