Python之pandas：利用describe函数统计【类别型】特征/离散型变量的描述性统计信息(包括个数count、unique、top及其freq、first、last)之详细攻略

一个处女座的程序猿

已于 2023-03-14 22:58:56 修改

阅读量1.1w

点赞数 6

分类专栏： Python编程(初级+进阶) DataScience 文章标签： python pandas 开发语言

于 2020-09-21 21:05:35 首次发布

本文链接：https://blog.csdn.net/qq_41185868/article/details/108719145

版权

DataScience 同时被 2 个专栏收录

326 篇文章 72 订阅

订阅专栏

Python编程(初级+进阶)

271 篇文章 508 订阅

订阅专栏

Python之pandas：利用describe函数统计【类别型】特征/离散型变量的描述性统计信息(包括个数count、unique、top及其freq、first、last)之详细攻略

利用describe函数统计【类别型】特征/离散型变量的描述性统计信息(包括个数count、unique、top及其freq、first、last)

# T1、设置include='all'参数，获得【类别型】特征的描述性统计信息，缺失值由NaN补上

利用describe函数统计【类别型】特征/离散型变量的描述性统计信息(包括个数count、unique、top及其freq、first、last)

# T1、设置include='all'参数，获得【类别型】特征的描述性统计信息，缺失值由NaN补上


import warnings
warnings.filterwarnings('ignore')
import pandas as pd
import numpy as np

# Python之pandas：利用describe函数统计【类别型】特征/离散型变量的描述性统计信息(包括个数count、unique、top及其freq、first、last)之详细攻略
 
students_info={"student_num": ['1001',        '1002',           '1003',            '1004'],
               "name":        ['Bob',         'LiSa',           'Mary',            'Alan'],
               "chinese_score": [78,            82,               86,                  75],
               "grade":       ['freshman',     'sophomore',     'junior',         'senior'],
               "sex":  ['男',          '女',                        '女',              '女'],   # 输出 None
               "age":  [22,           28,                  38 ,                        31],   # 输出 
               "born": [pd.NaT,     pd.Timestamp("1990-01-01"),  pd.Timestamp("1980-01-01"),      ''],   # 输出 NaT
               }   
data_frameA = pd.DataFrame(students_info)
print(data_frameA.info())


# 设置include='all'参数，获得【类别型】特征的描述性统计信息，缺失值由NaN补上
data_df_desc = data_frameA.describe(include='all')
data_df_desc.to_csv('data_df_desc.csv') 
print(data_df_desc)

	student_num	name	chinese_score	grade	sex	age	born
count	4	4	4	4	4	4	2
unique	4	4		4	2		2
top	1001	Alan		junior	女		1990/1/1 0:00
freq	1	1		1	3		1
first							1980/1/1 0:00
last							1990/1/1 0:00
mean			80.25			29.75
std			4.787135539			6.652067348
min			75			22
25%			77.25			26.5
50%			80			29.5
75%			83			32.75
max			86			38