二、描述性统计分析与绘图

TrueEik

于 2019-07-05 20:03:27 发布

阅读量1k

点赞数

CC 4.0 BY-SA版权

分类专栏：数据分析学习

本文链接：https://blog.csdn.net/TrueEik/article/details/94758638

3 篇文章

订阅专栏

本文深入探讨了数据科学中的变量类型，包括分类变量与连续变量的定义，以及如何通过平均数、中位数、众数等指标进行连续变量的分布、集中与离散趋势分析。此外，还介绍了方差、标准差、偏度和峰度的概念，以及它们在数据分布特性分析中的应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1、分类变量：不同值的数量有限，分名义变量和等级变量

2、连续变量：在规定范围区间内可以取任意值，如收入只要不低于0可以出现任何数字

1、平均数：反映数据集中水平

'''把snd里的price按district变量分组，
计算price的均值、中位数、众数，agg()归并若干函数的结果
'''
snd.price.groupby(snd.district).agg(['mean', 'median', 'std'])

2、中位数：使用了数据的次序信息而非取值

#求price的四分位数
data.price.quantile([0.25, 0.5, 0.75])

3、

data.price.var()		#方差
data.price.std()		#标准差

4、看偏度：以中位数为基准，看均值，均值左偏就是左偏分布
标准正态分布（均值为0，标准差为1）的变量偏度和峰度都是0
峰度越大数据分布越密集

data.skew()			#计算偏度
data.kurtosis()		#计算

5、