注:本文章中部分引用来自人教A版数学选择性必修第三册8.1.2节。
一、引入
先来看一道例题:
现有
n
=
5
n=5
n=5 的成对数据,分别为
(
101
,
52
)
(101,52)
(101,52) ,
(
102
,
54
)
(102,54)
(102,54) ,
(
103
,
54
)
(103,54)
(103,54) ,
(
104
,
55
)
(104,55)
(104,55) ,
(
105
,
57
)
(105,57)
(105,57) 。求样本相关系数
r
r
r 。
这一道题我硬算至少得5分钟。
是不是十分头疼,那就需要想一些简单的求法。
二、意义及公式
1、意义
引入一个适当的“数字特征”,对成对样本数据的相关程度进行定量分析。
在我们取出了若干个成对数据之后,可以将它们以散点图的形式画在坐标系中。那我们很容易想到,把画出来的所有点任意地平移,都不会影响它们的形状,也就是说,对这些数据的相关性没有影响。
在数学课本中,以
(
x
ˉ
,
y
ˉ
)
(\bar x,\bar y)
(xˉ,yˉ) 为坐标原点进行了平移,得到了
(
x
i
−
x
ˉ
,
y
i
−
y
ˉ
)
(x_i-\bar x,y_i-\bar y)
(xi−xˉ,yi−yˉ) ,再根据一定的方法构造出了样本相关系数
r
r
r 的计算公式。
2、公式
r
=
∑
i
=
1
n
(
x
i
−
x
ˉ
)
(
y
i
−
y
ˉ
)
∑
i
=
1
n
(
x
i
−
x
ˉ
)
2
∑
i
=
1
n
(
y
i
−
y
ˉ
)
2
r=\frac {\sum\limits _{i=1}^{n}(x_i-\bar x)(y_i-\bar y)}{\sqrt{\sum\limits _{i=1}^{n}(x_i-\bar x)^2}\sqrt{\sum\limits _{i=1}^{n}(y_i-\bar y)^2}}
r=i=1∑n(xi−xˉ)2i=1∑n(yi−yˉ)2i=1∑n(xi−xˉ)(yi−yˉ)
或经化简运算得到:
r
=
∑
i
=
1
n
x
i
y
i
−
n
x
ˉ
y
ˉ
∑
i
=
1
n
x
i
2
−
n
x
ˉ
2
∑
i
=
1
n
y
i
2
−
n
y
ˉ
2
r=\frac {\sum\limits _{i=1}^{n}x_iy_i-n\bar x\bar y}{\sqrt{\sum\limits _{i=1}^{n}x_i^2-n\bar x^2}\sqrt{\sum\limits _{i=1}^{n}y_i^2-n\bar y^2}}
r=i=1∑nxi2−nxˉ2i=1∑nyi2−nyˉ2i=1∑nxiyi−nxˉyˉ
三、化简方法
现在我们想,如果若干的很大的数据变成较小的数据,那么运算起来会十分快捷。那有什么办法使它们变小呢?
把画出来的所有点任意地平移
我们不妨把数据以
(
m
i
n
{
x
i
}
,
m
i
n
{
y
i
}
)
(min\{x_i\},min\{y_i\})
(min{xi},min{yi}) 为原点进行平移,对任意的数据只保留比最小值大的那部分。为了公式的书写简介方便,我在后面的式子中以
x
1
x_1
x1 和
y
1
y_1
y1 为最小值,相当于我们拥有的数据已经从小到大排好了顺序。那么,得到的成对数据为
(
x
i
−
x
1
,
y
i
−
y
1
)
(x_i-x_1,y_i-y_1)
(xi−x1,yi−y1) ,设为
(
a
i
,
b
i
)
(a_i,b_i)
(ai,bi) 。
易得
a
ˉ
=
x
ˉ
−
x
1
\bar a=\bar x-x_1
aˉ=xˉ−x1 和
b
ˉ
=
y
ˉ
−
y
1
\bar b=\bar y-y_1
bˉ=yˉ−y1 。
根据方差的性质,可得
S
a
2
=
S
x
2
S_a^2=S_x^2
Sa2=Sx2 ,
S
b
2
=
S
y
2
S_b^2=S_y^2
Sb2=Sy2 。
由此,可以得到公式:
r
=
∑
i
=
1
n
(
x
i
−
x
ˉ
)
(
y
i
−
y
ˉ
)
∑
i
=
1
n
(
x
i
−
x
ˉ
)
2
∑
i
=
1
n
(
y
i
−
y
ˉ
)
2
r=\frac {\sum\limits _{i=1}^{n}(x_i-\bar x)(y_i-\bar y)}{\sqrt{\sum\limits _{i=1}^{n}(x_i-\bar x)^2}\sqrt{\sum\limits _{i=1}^{n}(y_i-\bar y)^2}}
r=i=1∑n(xi−xˉ)2i=1∑n(yi−yˉ)2i=1∑n(xi−xˉ)(yi−yˉ)
=
∑
i
=
1
n
(
x
i
−
x
ˉ
)
(
y
i
−
y
ˉ
)
n
S
x
2
n
S
y
2
\newline=\frac {\sum\limits _{i=1}^{n}(x_i-\bar x)(y_i-\bar y)}{\sqrt{nS_x^2}\sqrt{nS_y^2}}
=nSx2nSy2i=1∑n(xi−xˉ)(yi−yˉ)
=
∑
i
=
1
n
[
a
i
+
x
1
−
(
a
ˉ
+
x
1
)
]
[
b
i
+
y
1
−
(
b
ˉ
+
y
1
)
]
n
S
x
2
n
S
y
2
\newline=\frac {\sum\limits _{i=1}^{n}[a_i+x_1-(\bar a+x_1)][b_i+y_1-(\bar b+y_1)]}{\sqrt{nS_x^2}\sqrt{nS_y^2}}
=nSx2nSy2i=1∑n[ai+x1−(aˉ+x1)][bi+y1−(bˉ+y1)]
=
∑
i
=
1
n
(
a
i
−
a
ˉ
)
(
b
i
−
b
ˉ
)
n
S
a
2
n
S
b
2
\newline=\frac {\sum\limits _{i=1}^{n}(a_i-\bar a)(b_i-\bar b)}{\sqrt{nS_a^2}\sqrt{nS_b^2}}
=nSa2nSb2i=1∑n(ai−aˉ)(bi−bˉ)
即:
r
=
∑
i
=
1
n
(
a
i
−
a
ˉ
)
(
b
i
−
b
ˉ
)
∑
i
=
1
n
(
a
i
−
a
ˉ
)
2
∑
i
=
1
n
(
b
i
−
b
ˉ
)
2
r=\frac {\sum\limits _{i=1}^{n}(a_i-\bar a)(b_i-\bar b)}{\sqrt{\sum\limits _{i=1}^{n}(a_i-\bar a)^2}\sqrt{\sum\limits _{i=1}^{n}(b_i-\bar b)^2}}
r=i=1∑n(ai−aˉ)2i=1∑n(bi−bˉ)2i=1∑n(ai−aˉ)(bi−bˉ)
或经化简运算得到:
r
=
∑
i
=
1
n
a
i
b
i
−
n
a
ˉ
b
ˉ
∑
i
=
1
n
a
i
2
−
n
a
ˉ
2
∑
i
=
1
n
b
i
2
−
n
b
ˉ
2
r=\frac {\sum\limits _{i=1}^{n}a_ib_i-n\bar a\bar b}{\sqrt{\sum\limits _{i=1}^{n}a_i^2-n\bar a^2}\sqrt{\sum\limits _{i=1}^{n}b_i^2-n\bar b^2}}
r=i=1∑nai2−naˉ2i=1∑nbi2−nbˉ2i=1∑naibi−naˉbˉ
这样再看开头的例题,可以把成对数据转化为
(
0
,
0
)
(0,0)
(0,0) ,
(
1
,
2
)
(1,2)
(1,2) ,
(
2
,
2
)
(2,2)
(2,2) ,
(
3
,
3
)
(3,3)
(3,3) ,
(
4
,
5
)
(4,5)
(4,5) 。是不是简单了许多呢!
另外,如果你觉得
(
0
,
0
)
(0,0)
(0,0) 算起来有点难受,也可以把所有数据都加一,得到
(
1
,
1
)
(1,1)
(1,1) ,
(
2
,
3
)
(2,3)
(2,3) ,
(
3
,
3
)
(3,3)
(3,3) ,
(
4
,
4
)
(4,4)
(4,4) ,
(
5
,
6
)
(5,6)
(5,6) ,也是可以的。
四、总结
下面来看看这么写究竟快在哪里!
1、原方法
x ˉ = 103 \bar x=103 xˉ=103 , y ˉ = 54.4 \bar y=54.4 yˉ=54.4 , ∑ i = 1 5 x i 2 = 53055 \sum\limits _{i=1}^5x_i^2=53055 i=1∑5xi2=53055 , ∑ i = 1 5 y i 2 = 14810 \sum\limits _{i=1}^5y_i^2=14810 i=1∑5yi2=14810 , ∑ i = 1 5 x i y i = 28027 \sum\limits _{i=1}^5x_iy_i=28027 i=1∑5xiyi=28027 。所以 r = 11 132 = 1 2 11 3 ≈ 0.957427 r=\frac{11}{\sqrt{132}}=\frac12\sqrt{\frac{11}{3}}\approx0.957427 r=13211=21311≈0.957427 。
2、简单方法
a ˉ = 3 \bar a=3 aˉ=3 , b ˉ = 3.4 \bar b=3.4 bˉ=3.4 , ∑ i = 1 5 a i 2 = 55 \sum\limits _{i=1}^5a_i^2=55 i=1∑5ai2=55 , ∑ i = 1 5 b i 2 = 71 \sum\limits _{i=1}^5b_i^2=71 i=1∑5bi2=71 , ∑ i = 1 5 a i b i = 62 \sum\limits _{i=1}^5a_ib_i=62 i=1∑5aibi=62 。所以 r = 11 132 ≈ 0.957427 r=\frac{11}{\sqrt{132}}\approx0.957427 r=13211≈0.957427 。
简洁程度一目了然(* ̄︶ ̄)。