《商务与经济统计》笔记第三章
第三章:描述统计学:数值方法
3.1 位置的度量
3.1.1 平均数、中位数、众数、
样本平均数: x − = ∑ x i n \mathop x\limits^ - = \frac{{\sum {{x_{\rm{i}}}} }}{n} x−=n∑xi
总体平均数: μ = ∑ x i N \mu = \frac{{\sum {{x_{\text{i}}}} }}{N} μ=N∑xi
加权平均数: x ‾ = ∑ w i x i ∑ w i \overline x = \frac{{\sum {{w_i}{x_i}} }}{{\sum {{w_i}} }} x=∑wi∑wixi
几何平均数: x g ‾ = x 1 x 2 … x n n \overline {{x_g}} = \sqrt[n]{{{x_1}{x_2} \ldots {x_n}}} xg=nx1x2…xn
中位数:按数据从小到大排序后,中间的数据。
众数:出现次数最多的数据
3.1.2 百分位数、四分位数
百分位数:对于包含n个观测值的数据集,第p百分位数讲数据分割为两部分:大约有p%的观测值比第p百分位数小;而大约有(100-p)%的观测值比第p百分位数大。令 L p {L_p} Lp表示第p百分位数的位置,则:
L p = p 100 ( n + 1 ) {L_p} = \frac{p}{{100}}\left( {n + 1} \right) Lp=100p(n+1) 。
一旦计算出其位置,就可一计算第p百分位数的信息。
例如:对于某个数据集有12个数据,排序后,位置10对应的值为4050,位置11对应的值是4130,计算该数据的第80百分位数。
解: L 80 = 80 100 ( 12 + 1 ) {L_{80}} = \frac{{80}}{{100}}\left( {12 + 1} \right) L80=10080(12+1)=10.4,代表第80百分位数是位置10和位置11数值之间部分的40%。
第80百分位数=4050+0.4(4130-4050)=4082
四分位数:
Q 1 {Q_1} Q1第一四分位数=第25百分位数
Q 2 {Q_2} Q2第二四分位数=第50百分位数
Q 3 {Q_3} Q3第三四分位数=第75百分位数
3.2 离散程度的度量
3.2.1 极差、四分位数间距、方差、标准差、标准差系数
极差:极差=最大值-最小值
四分位数间距:是第三四分位数Q3与第一四分位数Q1的差值。也就是说,四分位数间距是中间50%数据的极差。 I Q R = Q 3 − Q 1 IQR = {Q_3} - {Q_1} IQR=Q3−Q1
方差:总体方差、样本方差
总体方差: σ 2 = ∑ ( x i − μ ) 2 N {\sigma ^2} = \frac{{\sum {{{\left( {{x_i} - \mu } \right)}^2}} }}{N} σ2=N∑(xi−μ)2
样本方差: s 2 = ∑ ( x i − x ‾ ) 2 n − 1 {s^2} = \frac{{\sum {{{\left( {{x_i} - \overline x } \right)}^2}} }}{{n - 1}} s2=n−1∑(xi−x)2
标准差:总体标准差、样本标准差
总体标准差: σ = σ 2 \sigma = \sqrt {{\sigma ^2}} σ=σ2
样本标准差: s = s 2 s = \sqrt {{s^2}} s=s2
标准差系数:(标准差\平均数*100)%
3.3 分布形态、相对位置的度量、异常值的检测
3.3.1 分布形态、Z-分数、切比雪夫定理、经验法则、异常值的检测
偏度:偏度 = n ( n − 1 ) ( n − 2 ) ∑ ( x i − x ‾ s ) 3 = \frac{n}{{\left( {n - 1} \right)\left( {n - 2} \right)}}{\sum {\left( {\frac{{{x_i} - \overline x }}{s}} \right)} ^3} =(n−1)(n−2)n∑(sxi−x)3
Z-分数: z i = x i − x ‾ s {z_i} = \frac{{{x_i} - \overline x }}{s} zi=sxi−x,其解释为, x i {{x_i}} xi与平均数 x ‾ {\overline x } x的距离是 z i {z_i} zi个标准差。
任何观测值的z-分数都被认为是对数据集中观测值相对位置的度量。因此,两个不同数据集的观测值具有相同的z分数,就可以说是他们具有相同的相对位置,他们与平均数的距离有相同个数的标准差。
切比雪夫定理:与平均数的距离在z个标准差之内的数据值所占的比例至少为 ( 1 − 1 z 2 ) \left( {1 - \frac{1}{{{z^2}}}} \right) (1−z21),其中z是大于1的任意实数。
- 至少75%的数据值与平均数的距离在z=2个标准差之内
- 至少89%的数据值与平均数的距离在z=3个标准差之内
- 至少94%的数据值与平均数的距离在z=4个标准差之内
切比雪夫定理适用于任何数据集而不论其数据分布的形状。当某个数据集成正态分布或者钟形分布的时候,便有了经验法则:
对于具有钟形分布的数据:
大约68%的数据值与平均数的距离在1个标准差之内;
大约95%的数据值与平均数的距离在2个标准差之内;
几乎所有数据值与平均数的距离在3个标准差之内;
异常值的检测:
- z-分数可以用来检测异常值,建议把z-分数小于-3或者大于3的任何数值都视为异常值。
- 还可以以第一四分位数和第三四分位数以及四分位数间距为依据,首先计算下限和上限:
下 限 = Q 1 − 1.5 ∗ I Q R 下限={Q_1} - 1.5*IQR 下限=Q1−1.5∗IQR
上 限 = Q 3 + 1.5 ∗ I Q R 上限={Q_3} +1.5*IQR 上限=Q3+1.5∗IQR
如果一个数值小于下限或者大于上限,则被视为异常值。
3.4 五数概括法、箱型图
3.4.1 五数概括法、箱型图
五数概括法:
- 最小值
- 第一四分位数
- 中位数
- 第三四分位数
- 最大值
箱型图:[空]
3.5 两变量间关系的度量
3.5.1 协方差
对于一个容量为n的样本,其观测值为 ( x 1 , y 1 ) , ( x 2 , y 2 ) , ⋯ , ( x n , y n ) \left( {{x_1},{y_1}} \right),\left( {{x_2},{y_2}} \right), \cdots ,\left( {{x_n},{y_n}} \right) (x1,y1),(x2,y2),⋯,(xn,yn),则:
样本协方差: s x y = ∑ ( x i − x ‾ ) ( y i − y ‾ ) n − 1 {s_{xy}} = \frac{{\sum {\left( {{x_i} - \overline x } \right)\left( {{y_i} - \overline y } \right)} }}{{n - 1}} sxy=n−1∑(xi−x)(yi−y)
总体协方差: σ x y = ∑ ( x i − μ x ) ( y i − μ y ) N {\sigma _{xy}} = \frac{{\sum {\left( {{x_i} - {\mu _x}} \right)\left( {{y_i} - {\mu _y}} \right)} }}{N} σxy=N∑(xi−μx)(yi−μy)
3.5.2 相关系数
皮尔逊积矩相关系数:样本数据:
r
x
y
=
s
x
y
s
x
s
y
{r_{xy}} = \frac{{{s_{xy}}}}{{{s_x}{s_y}}}
rxy=sxsysxy
其中:
s
x
=
∑
(
x
i
−
x
‾
)
2
n
−
1
{s_x} = \sqrt {\frac{{\sum {{{\left( {{x_i} - \overline x } \right)}^2}} }}{{n - 1}}}
sx=n−1∑(xi−x)2
皮尔逊积矩相关系数:总体数据:
ρ
x
y
=
σ
x
y
σ
x
σ
y
{\rho _{xy}} = \frac{{{\sigma _{xy}}}}{{{\sigma _x}{\sigma _y}}}
ρxy=σxσyσxy
其中:
σ
x
=
∑
(
x
i
−
μ
x
)
2
N
{\sigma _x} = \sqrt {\frac{{\sum {{{\left( {{x_i} - {\mu _x}} \right)}^2}} }}{N}}
σx=N∑(xi−μx)2
相关系数的值越接近于+1,表明同向线性关系越强;越接近于-1,表明反向线性关系越强;越接近于0,表明没有线性关系。