统计学基础(六):相关与回归

之前的统计量只描述单个变量,现在我们来学习一些可以说明变量之间关系的统计量

6.1 数据类型

6.1.1 单变量数据

  单个变量的频数或概率。例如天晴时数 音乐会听众人数。

表6-1 天晴时数表
天晴时数(小时) 1.9 2.5 3.2 3.8 4.7 5.5 5.9 7.2

表6-2 音乐会听众人数表
音乐会听众人数(百人) 22 33 30 42 38 49 42 55

6.1.2 二变量数据

  存在两个变量数值,若可以用一个变量来解释另一个变量,那么这个变量被称为自变量,另一个变量则称为因变量。例如音乐会听众人数天晴时数。

表6-3 音乐会听众人数与天晴时数表
天晴时数(小时) 1.9 2.5 3.2 3.8 4.7 5.5 5.9 7.2
音乐会听众人数(百人) 22 33 30 42 38 49 42 55


6.2 相关性

  变量之间的数学关系。
  对于二变量数据,我们可以使用散点图可视化数据,观察数据点的分布情况。

6.2.1 线性相关

  变量之间存在明显的线性关系。
  正线性相关:数据点呈直线分布,且y随x的增大而增大。

正线性相关

  负线性相关:数据点呈直线分布,且y随x的增大而减小。

负线性相关

6.2.2 非线性相关

  变量之间存在明显的关系,但是不是线性。

6.2.3 不相关

  变量之间不存在明显的关系,为随机模式。
数据点呈随机分布

不相关


6.3 相关性与因果性

  相关性指变量间的数量关系。
  因果性指变量间的逻辑关系。
相 关 性 ⇏ 因 果 性 因 果 性 ⇒ 相 关 性 相关性\nRightarrow因果性 \\ 因果性\Rightarrow相关性

例如:防晒霜销量与花粉量正线性相关。

分析:并不能说明花粉量增多直接导致防晒霜销量提高,极有可能是花粉量增大表明天气晴朗,而天气晴朗,人们外出游行需要涂抹更多的防晒霜,因此防晒霜销量增加。也就是说晴朗的好天气导致花粉量增多和防晒霜销量提高,而花粉量和防晒霜销量并无直接因果关系。
防 晒 霜 销 量 与 花 粉 量 正 线 性 相 关 ⇏ 花 粉 量 影 响 防 晒 霜 销 量 天 气 影 响 花 粉 量 ⇒ 花 粉 量 与 天 气 正 相 关 天 气 影 响 防 晒 霜 销 量 ⇒ 防 晒 霜 销 量 与 天 气 正 相 关 防晒霜销量与花粉量正线性相关\nRightarrow花粉量影响防晒霜销量 \\ 天气影响花粉量\Rightarrow花粉量与天气正相关 \\ 天气影响防晒霜销量\Rightarrow防晒霜销量与天气正相关 线

6.4 线性拟合

6.4.1 线性拟合

y ^ = a x + b ( 误 差 平 方 和 ) S S E = ∑ ( y − y i ) 2 \hat{y} = ax+b \\ (误差平方和)SSE = \sum(y-y_i)^2 y^=ax+bSSE=(yyi)2
我们以SSE(误差平方和)为损失函数,在数学上,我们可以直接使用最小二乘法计算a,b。

6.4.2 最小二乘法的数学公式

通过应用,掌握最小二乘法的使用。
a = ∑ ( x i − E ( x ) ( y i − E ( y ) ) ) ∑ ( x i − E ( x ) ) 2 = E ( x y ) − E ( x ) E ( y ) E ( x 2 ) − E 2 ( x ) = C o v ( x , y ) V a r ( x ) b = E ( y ) − a ∗ E ( x ) a = \frac{\sum(x_i-E(x)(y_i-E(y)))}{\sum(x_i-E(x))^2} \\ = \frac{E(xy)-E(x)E(y)}{E(x^2)-E^2(x)} \\ = \frac{Cov(x,y)}{Var(x)} \\ b = E(y) - a*E(x) a=(xiE(x))2(xiE(x)(yiE(y)))=E(x2)E2(x)E(xy)E(x)E(y)=Var(x)Cov(x,y)b=E(y)aE(x)

6.4.3 最小二乘法的数学证明

感兴趣的同学,可手动推导一番公式。
a = ∑ ( x i − E ( x ) ( y i − E ( y ) ) ) ∑ ( x i − E ( x ) ) 2 = ∑ ( x i y i − x i E ( y ) − E ( x ) y i + E ( x ) E ( y ) ) ∑ ( x i 2 − 2 x i E ( x ) + E 2 ( x ) ) = E ( x y ) − E ( x ) E ( y ) − E ( x ) E ( y ) + E ( x ) E ( y ) E ( x 2 ) − 2 E 2 ( x ) + E 2 ( x ) = E ( x y ) − E ( x ) E ( y ) E ( x 2 ) − E 2 ( x ) = C o v ( x , y ) V a r ( x ) ∵ y ^ = a x + b 经 过 点 ( E ( x ) , E ( y ) ) ∴ b = E ( y ) − a ∗ E ( x ) a = \frac{\sum(x_i-E(x)(y_i-E(y)))}{\sum(x_i-E(x))^2} = \frac{\sum(x_iy_i-x_iE(y)-E(x)y_i+E(x)E(y))}{\sum(x_i^2-2x_iE(x)+E^2(x))} \\ = \frac{E(xy)-E(x)E(y)-E(x)E(y)+E(x)E(y)}{E(x^2)-2E^2(x)+E^2(x)} = \frac{E(xy)-E(x)E(y)}{E(x^2)-E^2(x)} \\ = \frac{Cov(x,y)}{Var(x)} \\ \because \quad \hat{y} = ax+b \quad经过点(E(x), E(y)) \\ \therefore \quad b = E(y) - a*E(x) a=(xiE(x))2(xiE(x)(yiE(y)))=(xi22xiE(x)+E2(x))(xiyixiE(y)E(x)yi+E(x)E(y))=E(x2)2E2(x)+E2(x)E(xy)E(x)E(y)E(x)E(y)+E(x)E(y)=E(x2)E2(x)E(xy)E(x)E(y)=Var(x)Cov(x,y)y^=ax+b(E(x),E(y))b=E(y)aE(x)

6.4.4 最小二乘法的应用

根据天晴时数,预测音乐会听众人数。

表6-3 音乐会听众人数与天晴时数表
天晴时数(小时)  x   1.9 2.5 3.2 3.8 4.7 5.5 5.9 7.2
音乐会听众人数(百人)  y   22 33 30 42 38 49 42 55

E ( x ) = ∑ ( x i ) n = 1.9 + 2.5 + 3.2 + 3.8 + 4.7 + 5.5 + 5.9 + 7.2 8 = 4.3375 同 理 E ( y ) = 38.875 , E ( x y ) = 183.975 , E ( x 2 ) = 21.69125 ∴ a = E ( x y ) − E ( x ) E ( y ) E ( x 2 ) − E 2 ( x ) = 183.975 − 4.3375 ∗ 38.875 21.69125 − ( 4.3375 ) 2 = 5.336 b = E ( y ) − a ∗ E ( x ) = 38.875 − 5.336 ∗ 4.3375 = 15.73 ∴ y ^ = 5.336 x + 15.73 E(x) = \frac{\sum(x_i)}{n} = \frac{1.9+2.5+3.2+3.8+4.7+5.5+5.9+7.2}{8} = 4.3375 \\ \\ 同理 \quad E(y) = 38.875, \quad E(xy) = 183.975, \quad E(x^2) = 21.69125 \\ \therefore a = \frac{E(xy)-E(x)E(y)}{E(x^2)-E^2(x)} = \frac{183.975-4.3375*38.875}{21.69125-(4.3375)^2} = 5.336 \\ \quad b = E(y) - a*E(x) = 38.875 - 5.336*4.3375 = 15.73 \\ \therefore \quad \hat{y} = 5.336x+15.73 E(x)=n(xi)=81.9+2.5+3.2+3.8+4.7+5.5+5.9+7.2=4.3375E(y)=38.875,E(xy)=183.975,E(x2)=21.69125a=E(x2)E2(x)E(xy)E(x)E(y)=21.69125(4.3375)2183.9754.337538.875=5.336b=E(y)aE(x)=38.8755.3364.3375=15.73y^=5.336x+15.73

拟合结果如下图所示:

线性拟合结果

6.4.5 最小二乘法的其他参数

相关系数

决定系数

注意:只有在处于数据范围以内时,我们才能自行给出结论。

有影响观察结果和异常值
有影响观察结果是在水平方向上远离数据的点(从数据看);
异常值是远偏离回归线的点(从拟合效果看)。

相关代码

参考:

《深入浅出统计学》

可汗学院公开课:统计学 http://open.163.com/special/Khan/khstatistics.html

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值