一、任务:提取目标文件里的目标行,并对其格式进行统一
需要将目标文件Item Number为的行筛选出来
[1234, 2345, 4567,6789,7890]
二、查看数据
先查看数据,目标文件一个为csv、一个为xls、一个为xlsx
查看数据格式
Cost列需要转化为数值去除'$'和',',Date列格式需要统一为'%Y-%m-%d'
三、问题分析
首先,我们需要将目标文件遍历读取,也就是读取文件夹中的xls、csv、xlsx文件以及写有需要查找的目标的文件。
然后,将文件转化成dataframe格式。
由于不是所有文件都有['Item Number']这列,所以如果直接索引会报错,导致程序中断。因此,在这里加入一个异常处理,如果遇到没有['Item Number']这列的文件,跳过该次循环,对下一个文件进行读取;如果有这一列,则该次循环继续。
接着,对数据格式进行处理。$2,300.00,虽然为数值格式,但为货币格式,我们先将其转化为字符串,将'$',','剔除,再转化为数值。对于日期格式,先转化为datetime格式,再转化为目标格式。
将文件写入。
三、程序编写
首先,导入需要的库
其次,需要将目标文件夹路径、需要查找的number的文件、需要写入的文件路径写出。这里根据自己文件路径写。将文件放在jupyter目录下即可。
item_number_file='./数据处理/item_numbers_to_find.csv'
path_to_folder='./数据处理'
output_file='./output_files/1app_output.csv'
读取需要查找的number的文件
item_number_to_find=pd.read_csv(item_number_file,header=None).values.ravel().tolist()
ravel为将值展开,否则读取的值将为,无法与文件匹配。tolist将其转化为列表
[[1234.0], [2345.0], [4567.0], [6789.0], [7890.0]]
打开要写入的文件,使用with open打开,能够多次写入
#打开output_file,多次写入csv文件
with open(output_file,'w',newline='') as file:
使用glob获取指定文件夹下的所有文件路径,并通过os.path.join()
函数构建文件路径。然后,使用for
循环遍历这些文件路径。其中os.path.join()意思是将path_to_path连接在一起
,’*‘为任意文件夹的意思。使用if对不同文件分别读取。
其中对于xls文件,里面有多个工作簿,设置参数sheet_name=None,index_col=None,不读取工作簿的名称和重新设置索引,方便后面将多个工作簿连接成一个。创建一个空列表 data_frame
,用于存储每个工作表的数据。
然后,通过 for
循环遍历 all_worksheets
字典的键值对。items()
方法返回一个包含字典中所有键值对的列表,其中每个键值对表示一个工作表的名称和对应的数据。在循环中,将每个工作表的数据 data
添加到 data_frame
列表中。
最后,使用 pd.concat()
函数将 data_frame
列表中的所有数据按行合并,并创建一个包含所有工作表数据的 DataFrame 对象 df
。axis=0
参数表示按行合并,ignore_index=True
参数表示重置合并后的 DataFrame 的索引。
for input_file in glob.glob(os.path.join(path_to_folder,'*')):
file_counter+=1
#其中的[2]可能根据文件名的不同来选择尾缀即可
if input_file.split('.')[2]=='csv':
df=pd.read_csv(input_file)
elif input_file.split('.')[2]=='xls':
all_worksheets=pd.read_excel(input_file,sheet_name=None,index_col=None)
data_frame=[]
for worksheet_name ,data in all_worksheets.items():
data_frame.append(data)
df=pd.concat(data_frame,axis=0,ignore_index=True)
异常处理
#有的文件没有Item Number这列,直接df['Item Number']会报错,因此这里采用一个异常处理,使程序不中断
try:
df['Item Number']
except KeyError:continue
print(input_file)
数据格式处理
首先,代码使用 astype(str)
将 df['Cost']
列的数据类型转换为字符串类型。然后,使用 str.replace(',', '')
将字符串中的逗号去除,使用 str.strip('$')
去除字符串两端的美元符号,并最后使用 astype(float)
将字符串转换为浮点数类型。这一系列操作的目的是将 Cost
列中的数值格式从带有逗号和美元符号的字符串转换为浮点数格式。
接下来,代码使用 pd.to_datetime()
函数将 df['Date']
列的数据类型转换为日期时间类型。infer_datetime_format=True
参数表示尝试自动推断日期时间格式。
最后,代码使用 dt.strftime('%Y-%m-%d')
将 df['Date']
列中的日期时间格式转换为指定的字符串格式 %Y-%m-%d
,即年-月-日的形式。
因此,这段代码的作用是针对 DataFrame 对象中的 Cost
列和 Date
列进行不同的数据格式处理,将 Cost
列中的数值格式转换为浮点数格式,将 Date
列中的日期时间格式转换为指定的字符串格式。
#针对不同数据格式处理
df['Cost'] = df['Cost'].astype(str).str.replace(',','').str.strip('$').astype(float)
df['Date'] = pd.to_datetime(df['Date'], infer_datetime_format=True)
df['Date'] = df['Date'].dt.strftime('%Y-%m-%d')
提取目标行,并将目标行写入output_file。使用 df['Item Number'].isin(item_number_to_find)
条件来筛选出 DataFrame df
中 Item Number
列的值在 item_number_to_find
列表中的行。这将返回一个布尔索引,其中值为 True 的行表示满足条件的行。
filewriter=df[df['Item Number'].isin(item_number_to_find)]
filewriter.to_csv(output_file,index=False,mode='a',header=None)
也可以使用index来索引目标行 _为index行索引,i为['Item Number']列的值
for _,i in df['Item Number'].iteritems():
if i in item_number_to_find:
filewriter.writerow(df.iloc[_].tolist())
count_of_item_numbers+=1
完整代码
import glob
import os
from datetime import date
import pandas as pd
item_number_file='./数据处理/item_numbers_to_find.csv'
path_to_folder='./数据处理'
output_file='./output_files/1app_output.csv'
#需要找的目标
item_number_to_find=pd.read_csv(item_number_file,header=None).values.ravel().tolist()
print(item_number_to_find)
#打开output_file,多次写入csv文件
with open(output_file,'w',newline='') as file:
file_counter=0
for input_file in glob.glob(os.path.join(path_to_folder,'*')):
file_counter+=1
#其中的[2]可能根据文件名的不同来选择尾缀即可
if input_file.split('.')[2]=='csv':
df=pd.read_csv(input_file)
elif input_file.split('.')[2]=='xls':
all_worksheets=pd.read_excel(input_file,sheet_name=None,index_col=None)
data_frame=[]
for worksheet_name ,data in all_worksheets.items():
data_frame.append(data)
df=pd.concat(data_frame,axis=0,ignore_index=True)
#有的文件没有Item Number这列,直接df['Item Number']会报错,因此这里采用一个异常处理,使程序不中断
try:
df['Item Number']
except KeyError:continue
print(input_file)
#针对不同数据格式处理
df['Cost'] = df['Cost'].astype(str).str.replace(',','').str.strip('$').astype(float)
df['Date'] = pd.to_datetime(df['Date'], infer_datetime_format=True)
df['Date'] = df['Date'].dt.strftime('%Y-%m-%d')
filewriter=df[df['Item Number'].isin(item_number_to_find)]
filewriter.to_csv(output_file,index=False,mode='a',header=None)
print("Number of files",file_counter)