Python之pandas:利用describe函数统计【类别型】特征/离散型变量的描述性统计信息(包括个数count、unique、top及其freq、first、last)之详细攻略
目录
利用describe函数统计【类别型】特征/离散型变量的描述性统计信息(包括个数count、unique、top及其freq、first、last)
# T1、设置include='all'参数,获得【类别型】特征的描述性统计信息,缺失值由NaN补上
利用describe函数统计【类别型】特征/离散型变量的描述性统计信息(包括个数count、unique、top及其freq、first、last)
# T1、设置include='all'参数,获得【类别型】特征的描述性统计信息,缺失值由NaN补上
import warnings
warnings.filterwarnings('ignore')
import pandas as pd
import numpy as np
# Python之pandas:利用describe函数统计【类别型】特征/离散型变量的描述性统计信息(包括个数count、unique、top及其freq、first、last)之详细攻略
students_info={"student_num": ['1001', '1002', '1003', '1004'],
"name": ['Bob', 'LiSa', 'Mary', 'Alan'],
"chinese_score": [78, 82, 86, 75],
"grade": ['freshman', 'sophomore', 'junior', 'senior'],
"sex": ['男', '女', '女', '女'], # 输出 None
"age": [22, 28, 38 , 31], # 输出
"born": [pd.NaT, pd.Timestamp("1990-01-01"), pd.Timestamp("1980-01-01"), ''], # 输出 NaT
}
data_frameA = pd.DataFrame(students_info)
print(data_frameA.info())
# 设置include='all'参数,获得【类别型】特征的描述性统计信息,缺失值由NaN补上
data_df_desc = data_frameA.describe(include='all')
data_df_desc.to_csv('data_df_desc.csv')
print(data_df_desc)
student_num | name | chinese_score | grade | sex | age | born | |
count | 4 | 4 | 4 | 4 | 4 | 4 | 2 |
unique | 4 | 4 | 4 | 2 | 2 | ||
top | 1001 | Alan | junior | 女 | 1990/1/1 0:00 | ||
freq | 1 | 1 | 1 | 3 | 1 | ||
first | 1980/1/1 0:00 | ||||||
last | 1990/1/1 0:00 | ||||||
mean | 80.25 | 29.75 | |||||
std | 4.787135539 | 6.652067348 | |||||
min | 75 | 22 | |||||
25% | 77.25 | 26.5 | |||||
50% | 80 | 29.5 | |||||
75% | 83 | 32.75 | |||||
max | 86 | 38 |