在对数据进行分析之前,首先需要对数据的分布状况有一个大致的了解,这为后续的数据预处理工作提供一定的方向。 即将过年啦,现在把我之前在工作写下的小函数总结如下,一来我可以方便后续的时候,二来若能为同行业的人士提供方便,那也是很棒的喔!
## 数据的描述性统计
def dataDescription(data_df):
from collections import OrderedDict
dict_result = OrderedDict()
## 最小值
dict_result['Min.']= data_df.min()
## 下四分位数
dict_result['1st Qu.']= data_df.quantile(q = 0.25)
## 中位数
dict_result['Median']= data_df.median()
## 均值
dict_result['Mean']= data_df.mean()
## 上四分位数
dict_result['3rd Qu.']= data_df.quantile(q = 0.75)
## 最大值
dict_result['Max.']= data_df.max()
## 缺失值的个数
dict_result['NA counts']= data_df.isnull().sum()
return pd.DataFrame(dict_result).T
if __name__ == '__main__':
import pandas as pd
import numpy as np
data = pd.read_csv('data/cs-training.csv')
## 调用描述性统计函数,描述数据各个指标
describe_data = dataDescription(data)