一、变量类型
1、分类变量:不同值的数量有限,分名义变量和等级变量
2、连续变量:在规定范围区间内可以取任意值,如收入只要不低于0可以出现任何数字
二、连续变量分布、集中与离散趋势
1、平均数:反映数据集中水平
'''把snd里的price按district变量分组,
计算price的均值、中位数、众数,agg()归并若干函数的结果
'''
snd.price.groupby(snd.district).agg(['mean', 'median', 'std'])
2、中位数:使用了数据的次序信息而非取值
#求price的四分位数
data.price.quantile([0.25, 0.5, 0.75])
- 对一个典型的右偏分布变量,高收入人少值高,平均值被拉高,故采用中位数更好
- 对于分类变量而言毫无意义,故要使用众数
3、
data.price.var() #方差
data.price.std() #标准差
4、看偏度:以中位数为基准,看均值,均值左偏就是左偏分布
标准正态分布(均值为0,标准差为1)的变量偏度和峰度都是0
峰度越大数据分布越密集
data.skew() #计算偏度
data.kurtosis() #计算
5、