python对DataFrame自定义描述性统计

在对数据进行分析之前,首先需要对数据的分布状况有一个大致的了解,这为后续的数据预处理工作提供一定的方向。 即将过年啦,现在把我之前在工作写下的小函数总结如下,一来我可以方便后续的时候,二来若能为同行业的人士提供方便,那也是很棒的喔!

## 数据的描述性统计
def dataDescription(data_df):
    from collections import OrderedDict
    dict_result = OrderedDict()
    ## 最小值
    dict_result['Min.']= data_df.min() 
    ## 下四分位数
    dict_result['1st Qu.']= data_df.quantile(q = 0.25)
    ## 中位数
    dict_result['Median']= data_df.median() 
    ## 均值
    dict_result['Mean']= data_df.mean()
    ## 上四分位数
    dict_result['3rd Qu.']= data_df.quantile(q = 0.75)
    ## 最大值
    dict_result['Max.']= data_df.max() 
    ## 缺失值的个数
    dict_result['NA counts']= data_df.isnull().sum()
    return  pd.DataFrame(dict_result).T
if __name__ == '__main__':
    import pandas as pd
    import numpy as np
    data = pd.read_csv('data/cs-training.csv')
    ## 调用描述性统计函数,描述数据各个指标
    describe_data = dataDescription(data)
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值