之前的统计量只描述单个变量,现在我们来学习一些可以说明变量之间关系的统计量。
6.1 数据类型
6.1.1 单变量数据
单个变量的频数或概率。例如天晴时数 , 音乐会听众人数。
天晴时数(小时) | 1.9 | 2.5 | 3.2 | 3.8 | 4.7 | 5.5 | 5.9 | 7.2 |
---|
音乐会听众人数(百人) | 22 | 33 | 30 | 42 | 38 | 49 | 42 | 55 |
---|
6.1.2 二变量数据
存在两个变量数值,若可以用一个变量来解释另一个变量,那么这个变量被称为自变量,另一个变量则称为因变量。例如音乐会听众人数与天晴时数。
天晴时数(小时) | 1.9 | 2.5 | 3.2 | 3.8 | 4.7 | 5.5 | 5.9 | 7.2 |
---|---|---|---|---|---|---|---|---|
音乐会听众人数(百人) | 22 | 33 | 30 | 42 | 38 | 49 | 42 | 55 |
6.2 相关性
变量之间的数学关系。
对于二变量数据,我们可以使用散点图可视化数据,观察数据点的分布情况。
6.2.1 线性相关
变量之间存在明显的线性关系。
正线性相关:数据点呈直线分布,且y随x的增大而增大。
负线性相关:数据点呈直线分布,且y随x的增大而减小。
6.2.2 非线性相关
变量之间存在明显的关系,但是不是线性。
6.2.3 不相关
变量之间不存在明显的关系,为随机模式。
数据点呈随机分布
6.3 相关性与因果性
相关性指变量间的数量关系。
因果性指变量间的逻辑关系。
相
关
性
⇏
因
果
性
因
果
性
⇒
相
关
性
相关性\nRightarrow因果性 \\ 因果性\Rightarrow相关性
相关性⇏因果性因果性⇒相关性
例如:防晒霜销量与花粉量正线性相关。
分析:并不能说明花粉量增多直接导致防晒霜销量提高,极有可能是花粉量增大表明天气晴朗,而天气晴朗,人们外出游行需要涂抹更多的防晒霜,因此防晒霜销量增加。也就是说晴朗的好天气导致花粉量增多和防晒霜销量提高,而花粉量和防晒霜销量并无直接因果关系。
防
晒
霜
销
量
与
花
粉
量
正
线
性
相
关
⇏
花
粉
量
影
响
防
晒
霜
销
量
天
气
影
响
花
粉
量
⇒
花
粉
量
与
天
气
正
相
关
天
气
影
响
防
晒
霜
销
量
⇒
防
晒
霜
销
量
与
天
气
正
相
关
防晒霜销量与花粉量正线性相关\nRightarrow花粉量影响防晒霜销量 \\ 天气影响花粉量\Rightarrow花粉量与天气正相关 \\ 天气影响防晒霜销量\Rightarrow防晒霜销量与天气正相关
防晒霜销量与花粉量正线性相关⇏花粉量影响防晒霜销量天气影响花粉量⇒花粉量与天气正相关天气影响防晒霜销量⇒防晒霜销量与天气正相关
6.4 线性拟合
6.4.1 线性拟合
y
^
=
a
x
+
b
(
误
差
平
方
和
)
S
S
E
=
∑
(
y
−
y
i
)
2
\hat{y} = ax+b \\ (误差平方和)SSE = \sum(y-y_i)^2
y^=ax+b(误差平方和)SSE=∑(y−yi)2
我们以SSE(误差平方和)为损失函数,在数学上,我们可以直接使用最小二乘法计算a,b。
6.4.2 最小二乘法的数学公式
通过应用,掌握最小二乘法的使用。
a
=
∑
(
x
i
−
E
(
x
)
(
y
i
−
E
(
y
)
)
)
∑
(
x
i
−
E
(
x
)
)
2
=
E
(
x
y
)
−
E
(
x
)
E
(
y
)
E
(
x
2
)
−
E
2
(
x
)
=
C
o
v
(
x
,
y
)
V
a
r
(
x
)
b
=
E
(
y
)
−
a
∗
E
(
x
)
a = \frac{\sum(x_i-E(x)(y_i-E(y)))}{\sum(x_i-E(x))^2} \\ = \frac{E(xy)-E(x)E(y)}{E(x^2)-E^2(x)} \\ = \frac{Cov(x,y)}{Var(x)} \\ b = E(y) - a*E(x)
a=∑(xi−E(x))2∑(xi−E(x)(yi−E(y)))=E(x2)−E2(x)E(xy)−E(x)E(y)=Var(x)Cov(x,y)b=E(y)−a∗E(x)
6.4.3 最小二乘法的数学证明
感兴趣的同学,可手动推导一番公式。
a
=
∑
(
x
i
−
E
(
x
)
(
y
i
−
E
(
y
)
)
)
∑
(
x
i
−
E
(
x
)
)
2
=
∑
(
x
i
y
i
−
x
i
E
(
y
)
−
E
(
x
)
y
i
+
E
(
x
)
E
(
y
)
)
∑
(
x
i
2
−
2
x
i
E
(
x
)
+
E
2
(
x
)
)
=
E
(
x
y
)
−
E
(
x
)
E
(
y
)
−
E
(
x
)
E
(
y
)
+
E
(
x
)
E
(
y
)
E
(
x
2
)
−
2
E
2
(
x
)
+
E
2
(
x
)
=
E
(
x
y
)
−
E
(
x
)
E
(
y
)
E
(
x
2
)
−
E
2
(
x
)
=
C
o
v
(
x
,
y
)
V
a
r
(
x
)
∵
y
^
=
a
x
+
b
经
过
点
(
E
(
x
)
,
E
(
y
)
)
∴
b
=
E
(
y
)
−
a
∗
E
(
x
)
a = \frac{\sum(x_i-E(x)(y_i-E(y)))}{\sum(x_i-E(x))^2} = \frac{\sum(x_iy_i-x_iE(y)-E(x)y_i+E(x)E(y))}{\sum(x_i^2-2x_iE(x)+E^2(x))} \\ = \frac{E(xy)-E(x)E(y)-E(x)E(y)+E(x)E(y)}{E(x^2)-2E^2(x)+E^2(x)} = \frac{E(xy)-E(x)E(y)}{E(x^2)-E^2(x)} \\ = \frac{Cov(x,y)}{Var(x)} \\ \because \quad \hat{y} = ax+b \quad经过点(E(x), E(y)) \\ \therefore \quad b = E(y) - a*E(x)
a=∑(xi−E(x))2∑(xi−E(x)(yi−E(y)))=∑(xi2−2xiE(x)+E2(x))∑(xiyi−xiE(y)−E(x)yi+E(x)E(y))=E(x2)−2E2(x)+E2(x)E(xy)−E(x)E(y)−E(x)E(y)+E(x)E(y)=E(x2)−E2(x)E(xy)−E(x)E(y)=Var(x)Cov(x,y)∵y^=ax+b经过点(E(x),E(y))∴b=E(y)−a∗E(x)
6.4.4 最小二乘法的应用
根据天晴时数,预测音乐会听众人数。
天晴时数(小时) x | 1.9 | 2.5 | 3.2 | 3.8 | 4.7 | 5.5 | 5.9 | 7.2 |
---|---|---|---|---|---|---|---|---|
音乐会听众人数(百人) y | 22 | 33 | 30 | 42 | 38 | 49 | 42 | 55 |
E ( x ) = ∑ ( x i ) n = 1.9 + 2.5 + 3.2 + 3.8 + 4.7 + 5.5 + 5.9 + 7.2 8 = 4.3375 同 理 E ( y ) = 38.875 , E ( x y ) = 183.975 , E ( x 2 ) = 21.69125 ∴ a = E ( x y ) − E ( x ) E ( y ) E ( x 2 ) − E 2 ( x ) = 183.975 − 4.3375 ∗ 38.875 21.69125 − ( 4.3375 ) 2 = 5.336 b = E ( y ) − a ∗ E ( x ) = 38.875 − 5.336 ∗ 4.3375 = 15.73 ∴ y ^ = 5.336 x + 15.73 E(x) = \frac{\sum(x_i)}{n} = \frac{1.9+2.5+3.2+3.8+4.7+5.5+5.9+7.2}{8} = 4.3375 \\ \\ 同理 \quad E(y) = 38.875, \quad E(xy) = 183.975, \quad E(x^2) = 21.69125 \\ \therefore a = \frac{E(xy)-E(x)E(y)}{E(x^2)-E^2(x)} = \frac{183.975-4.3375*38.875}{21.69125-(4.3375)^2} = 5.336 \\ \quad b = E(y) - a*E(x) = 38.875 - 5.336*4.3375 = 15.73 \\ \therefore \quad \hat{y} = 5.336x+15.73 E(x)=n∑(xi)=81.9+2.5+3.2+3.8+4.7+5.5+5.9+7.2=4.3375同理E(y)=38.875,E(xy)=183.975,E(x2)=21.69125∴a=E(x2)−E2(x)E(xy)−E(x)E(y)=21.69125−(4.3375)2183.975−4.3375∗38.875=5.336b=E(y)−a∗E(x)=38.875−5.336∗4.3375=15.73∴y^=5.336x+15.73
拟合结果如下图所示:
6.4.5 最小二乘法的其他参数
相关系数
决定系数
注意:只有在处于数据范围以内时,我们才能自行给出结论。
有影响观察结果和异常值
有影响观察结果是在水平方向上远离数据的点(从数据看);
异常值是远偏离回归线的点(从拟合效果看)。
相关代码
参考:
《深入浅出统计学》
可汗学院公开课:统计学 http://open.163.com/special/Khan/khstatistics.html