近期在工作中需要对原Excel表的众多数据需要处理,在网上找了一些python资料自学,最终完成了项目要求,现将过程和代码分享给大家学习:
本次选用了pandas模块中的DataFrame和Series数据结构,具体思路是:将excel表中特定sheet中的数据读取到DataFrame和Series数据结构,之后在程序中计算后再写入其他文件。
import os
import xlwings as xw
import pandas as pd
from pandas import Series,DataFrame
from icecream import ic
代码所用模块
# 打开Excel程序,默认设置:程序可见,只打开不新建工作薄,屏幕更新关闭
app=xw.App(visible=False,add_book=False)
app.display_alerts=False
app.screen_updating=False
# 文件位置:filepath,打开test文档,然后保存,关闭,结束程序
readFilepath=r'D://.xlsx'#读取excel表的位置和名称
writeFilepath='D://'#输出结果excel表的位置
wb=app.books.open(readFilepath)
#读取一整个sheet到pandas.DataFrame
def GetDataFrame(Sheets,N,M):
index1 = Sheets.range((1,1),(1,M)).value
index2 = Series(index1)
Data = Sheets.range((2,1),(N,M)).value
Data = pd.DataFrame(Data,columns=index2)
return Data
#新建excel
def createExcel(filename):
# 新建工作簿
wb = app.books.add()
# 保存工作簿
wb.save(writeFilepath+filename+timestamp+'.xlsx')
# 退出工作簿
wb.close()
#新建sheet
def createSheet(filename,sheetname):
my_file = writeFilepath+filename
if os.path.exists(my_file):
excelFile=app.books.open(my_file,'a+')
excelFile.sheets.add(sheetname)
excelFile.save(my_file)
excelFile.close()
else:
print("Excel文件不存在!")
def RG():
sheet = wb.sheets['']#['sheet名称']
x, y = sheet.used_range.shape
m = GetDataFrame(sheet, x, y)
m = m[(m['数量']>3)]#['列名']本行代码用于条件筛选,
n = m.groupby(['名称','地址'])['号码'].count()#列名分组,对不同号码出现的次数进行计数
return n
此时我们已经将自己所需要的数据进行了分组计数
最后写入数据之后更,欢迎大家留言评论谈论