将数据文件按照某个字段将数据,进行拆分汇总。
例:将下面的表,按照科目进行拆分汇总。
1.获取文件数据
import os
import pandas as pd
file_path = 'D:\data\数据处理\字段拆分\总表.xlsx'
data = pd.read_excel(file_path)
2.获取科目的种类
# 按科目进行拆分,将所有科目都取出来,然后通过drop_duplicates()去重
subjects = data['科目'].drop_duplicates()
3.按照科目进行筛选拆分
for subject in subjects:
data1 = data[data['科目']==subject]
# 获取保存路径+每个数据文件名
file_path = 'D:\data\数据处理\字段拆分\字段拆分目录\{}.xlsx'.format(subject)
data1.to_excel(file_path,index=None)
数据拆分处理后,目录下生成对应每一个科目的数据文件。
完整代码
import os
import pandas as pd
file_path = 'D:\data\数据处理\字段拆分\总表.xlsx'
data = pd.read_excel(file_path)
# 按科目进行拆分,将所有科目都取出来,然后通过drop_duplicates()去重
subjects = data['科目'].drop_duplicates()
for subject in subjects:
data1 = data[data['科目']==subject]
# 获取保存路径+每个数据文件名
file_path = 'D:\data\数据处理\字段拆分\字段拆分目录\{}.xlsx'.format(subject)
data1.to_excel(file_path,index=None)