连续变量
连续变量的描述统计包括集中趋势、离散趋势、分布特征
集中趋势
集中趋势表示的是数据分布的中心位置,它在一定水平上可以有效反映整体的情况。常见的指标有平均值、中位数等。
- 平均值(Mean)
平均值(均数)是最常用的描述数据分布集中趋势的统计指标。
它需要考虑所有个案的数据情况,容易受到极端值的影响,统计上不适用描述严重偏态分布的变量。
均数分为总体均数和样本均数,日常搜集的数据描述的都是样本均数。
样本均数是各数据相加再除以样本数量n得来,即:
x ˉ = ∑ X / n \bar{x}={\sum X/n} xˉ=∑X/n
- 中位数(Median)
中位数是将全体数据按大小顺序排列,处于数列中间位置的值。它考虑的是大小顺序位置,不受极端值影响。又因为它只考虑顺序位置,所以对信息利用不充分。根据样本数量n的奇偶不同而不同。
n为奇数时:
M = X ( n + 1 ) / 2 M=X_{(n+1)/2} M=X(n+1)/2
n为偶数时:
M = ( X n / 2 + X n / 2 + 1 ) / 2 M=(X_{n/2}+X_{n/2+1})/2 M=(Xn/2+X