第一章: 描述性统计分析
1.1 概念
1.1.2 描述性统计所提取统计的信息,我们称为统计量,主要包括以下几个方面:
频数和频率
频率,指每个类别变量的频数与总次数的比值,通常采用百分数表示.
集中趋势分析:均值,中位数,众数,分位数
均值:平均值
中位数:将一组数据升序排列,位于该组数据最中间位置的值,就是中位数.如果数据为偶数,为中间两个数的均值.
众数:一组数据中出现次数最多的值
分位数:通过n-1把一组数据分为n个区间,是的每个区间的数值个数相等(或近似相等),其中n为分位数的数量,常用的分位数有四分位数与百分位数.已四分位为例,计算分位数.
1,首先,计算四分位的位置:Q1_index = (n-1)*0.25; Q2_index=(n-1)*0.5; Q3_index=(n-1)*0.75.
2,如果四分位的位置与数据的位置重合,四分位等于四分位的位置对应的数值;如果四分位的位置与数据的位置不重合,按最近位置的两个数据,以加权计算的方式得到四分位的位置,权重为距离的反比.
Numpy中计算分位数
x = np.arange(10,20)
n = len(x)
#计算四分位的索引(index)
q1_index = (n-1)*0.25
q2_index = (n-1)*0.5
q3_index = (n-1)*0.75
print(q1_index,q2_index,q3_index)
index = np.array([q1_index,q2_index,q3_index])
#计算左边和右边元素的值
left = np.floor(index).astype(np.int32)
right = np.ceil(index).astyp