数据预处理
pandas对表格的操作也是基于xlwt,但是pandas读取数据要比xlrt更强大。
xlrt 读取西班牙语的时候,会转成数组,pandas不会
1.将数据二 值化
将表格中某列只有两个结果,用1和0去替代
2.单独修改一列为不同的值
这里是修改 product_id 这一列数据,更新数据为它自身的某一部门
import pandas as pd,os
from pandas import DataFrame
# 修改表格
def updateExel(path,out_path,name):
print('开始加载',os.path.join(path,name))
data = pd.read_excel(os.path.join(path,name),sheet_name='sheet1')
df = DataFrame(data)
for index,row in df.iterrows():
product_id1 = row['product_id'].split('.h')[0]
product_id2 = product_id1.split('-')
#修改数据
df.at[index,'product_id'] = product_id2[-2] + '-' + product_id2[-1]
#重新保存为另一张表格
df.to_excel(os.path.join(out_path,name), sheet_name='sheet1', index=False, header=True)
if __name__ == '__main__':
path = 'C:\\Users\\SHEIN\\Desktop\\zalando-1'
out_path = 'C:\\Users\\SHEIN\\Desktop\\zalando-2'
for file in os.listdir(path):
if file.endswith('.xls'):
updateExel(path,out_path,file)