在做数据预处理时,会接触到很多线下数据,将多个excel汇总及转换的操作,通过python能轻松解决。
比如:
A_1.xlsx A_2.xlsx :
得到:
完整代码如下:
import os
import pandas as pd
#文件夹地址
userdata = 'D:/数据汇总/输入/'
#获取列名 有两种可能
names1 = ['新料号','数量']
names2 = ['新料号','用量']
#输出新列名
new_col = ['新料号','数量']
#得到文件夹下文件列表
filename_list = []
for filename in os.listdir(userdata):
filename_list.append(filename)
#获取文件
filename_list = []
for filename in os.listdir(userdata):
filename_list.append(filename)
df = pd.DataFrame()
for f in filename_list:
try:
data = pd.read_excel(userdata + f,header=0,usecols=names1,index_col=False)
data.columns = new_col
data['来源'] = f.rsplit('.',1)[0]
except:
data = pd.read_excel(userdata + f, header=0, usecols=names2, index_col=False)
data.columns = new_col
data['来源'] = f.rsplit('.',1)[0]
df = pd.concat([df, data])
a = df.pivot(index='新料号',columns='来源',values='数量')
a.to_excel('D:/数据汇总/输出/汇总.xlsx')
print('运行成功,到文件夹查看')