用pandas批量分组处理excel数据

最新推荐文章于 2024-02-19 20:16:53 发布

arbraham

最新推荐文章于 2024-02-19 20:16:53 发布

阅读量1.9k

点赞数 1

文章标签： python

本文链接：https://blog.csdn.net/arbraham/article/details/105800305

版权

用pandas批量分组处理excel数据

需求比较简单，按照指定字段分组，计算指定字段的和或均值。
用SQL处理的话就一个groupby，可是没有数据库环境，只好用python（比起SQL真的是一点也不方便）处理excel文件。
学习了：

批量读取一个文件夹下所有excel文件，读、追加写入excel文件。
用pandas的groupby方法，还是比不上SQL，只找到了在分组时加过滤条件的方法，没有找到在计算时加过滤条件的方法，这样的话就跟用pivot_table没什么区别，还更复杂费代码，在生成多级列名时也麻烦些。
学习了pandas.concat里生成多级表头（或者行名、列名）的方法。
用pandas的透视表pivot_table方法，处理一般需求都够用，代码量少。
用matplotlib.pylot画图，画出的图也是动态的，但是一保存就成静态的了。
用pyecharts画图，画出的图像股票K线图一样好用，可以保存成html的动态的图。
尝试了网友的减少DataFrame占用的内存的方法，有效，但是未解决python.exe占用太多内存的原因。
学习了DataFrame里过滤数据，增加新列，补齐填充数据的方法。
学习了用apply, lambda处理DataFrame里时间字段date转str的方法。
使用了接受ctl+c跳出循环的方法
尝试了modin.pandas，的确可以起多个线程充分利用多核CPU进行计算，但是遇到处理不了的错误，还是放弃使用了。

python代码

#import modin.pandas as pd
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from pyecharts.charts import Line
from pyecharts import options as opt
import os
import time

col_year = 'V04001'
col_month = 'V04002'
col_day = 'V04003'
col_hour = 'V04004'

calcColumn1 = 'V13019'
calcColumn2 = 'V12001'

filesDir = input("请输入要分组计算的excel文件所在的路径(如e:\\data1)：") 
if filesDir == '':
    filesDir=r'E:\data1'
pilotPic = input("是否要画matpilot图，是输入1，否输入0：")
if pilotPic == '':
    pilotPic=0
echartPic = input("是否要画echart图，是输入1，否输入0：")
if echartPic == '':
    echartPic=0

NAlist = []
#网友的减少DataFrame占用的内存的方法,props是properties，代表DF
def reduce_mem_usage(props):
    # 计算当前内存
    start_mem_usg = props.memory_usage().sum() / 1024 ** 2
    print("Memory usage of the dataframe is :", start_mem_usg, "MB")
    
    # 哪些列包含空值，空值用-999填充。why：因为np.nan当做float处理
    NAlist = []
    for col in props.columns:
        # 这里只过滤了objectd格式，如果你的代码中还包含其他类型，请一并过滤
        if (props[col].dtypes != object):  # Exclude strings
            
            print("**************************")
            print("columns: ", col)
            print("dtype before", props[col].dtype)
            
            # 判断是否是int类型
            isInt = False
            mmax = props[col].max()
            mmin = props[col].min()
            
            # Integer does not support NA, therefore Na needs to be filled
            if not np.isfinite(props[col]).all():
                NAlist.append(col)
                props[col].fillna(0, inplace=True) # 用0填充
                
            # test if column can be converted to an integer
            asint = props[col].fillna(0).astype(np.int64)
            result = np.fabs(props[col] - asint)
            result = result.sum()
            if result < 0.01: # 绝对误差和小于0.01认为可以转换的，要根据task修改
                isInt

最低0.47元/天解锁文章

arbraham

关注

1
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
用pandas批量分组处理excel数据

用pandas批量分组处理excel数据需求比较简单，按照指定字段分组，计算指定字段的和或均值。用SQL处理的话就一个groupby，可是没有数据库环境，只好用python（比起SQL真的是一点也不方便）处理excel文件。学习了：批量读取一个文件夹下所有excel文件，读、追加写入excel文件。用pandas的groupby方法，这个方法类似于SQL，可以只计算符合条件的记录。学...
复制链接

扫一扫