Chapter-6_回归分析

Chapter-6_回归分析

本文内容摘自:https://seeing-theory.brown.edu/regression-analysis/cn.html

回归分析是一种建立两个变量之间线性模型的方法。

1. 最小二乘法

最小二乘法是一个估计线性模型参数的方法。这个方法的目标是找到一组线性模型参数,使得这个模型预测的数据和实际数据间的平方误差达到最小。这是四个让让统计学家一度十分头疼的数据集:安斯库姆四重奏,你可以通过这四个数据集进一步探索最小二乘法。

选择一个数据集

fig

拖动图中的数据点,观察它们对回归直线的影响。
fig

点击下方表格来了解每个参数在最小二乘法中的具体含义。

fig

n 是样本大小,也就是数据集中数据点的个数。

x ˉ \bar{x} xˉ 是 X 数据的均值,其数学定义如下:
x ˉ = ∑ i = 1 n x i n \bar{x} = \sum_{i=1}^{n}\dfrac{x_{i}}{n} xˉ=i=1nnxi

y ˉ \bar{y} yˉ y y y 数据的均值,其数学定义如下:
y ˉ = ∑ i = 1 n y i n \bar{y} = \sum_{i=1}^{n}\dfrac{y_{i}}{n} yˉ=i=1nnyi

B 0 ^ \hat{B_{0}} B0^ 是回归直线的截距,目前的估计值的方差是 11.39。其数学定义如下:
B 0 ^ = y ˉ − B 1 ^ x ˉ \hat{B_{0}} = \bar{y} - \hat{B_{1}}\bar{x} B0^=yˉB1^xˉ

B 1 ^ \hat{B_{1}} B1^ 是回归直线的斜率,目前估计的方差是0.13。 其数学定义如下:
B 1 ^ = S x y S x x \hat{B_{1}} = \dfrac{S_{xy}}{S_{xx}} B1^=SxxSxy

S S E SSE SSE 指的是残差平方和(sum of squared error,其数学定义如下:
S S E = ∑ i = 1 n ( y i − ( B 0 ^ + B 1 ^ x i ) ) 2 SSE = \sum_{i=1}^{n}(y_{i} - (\hat{B_{0}} + \hat{B_{1}}x_{i}))^{2} SSE=i=1n(yi(B0^+B1^xi))2

2. 相关性

相关性是一种刻画两个变量之间线性关系的度量。相关性的数学定义是
r = s x y s x x s y y r = \dfrac{s_{xy}}{\sqrt{s_{xx}}\sqrt{s_{yy}}} r=sxx syy sxy
其中
s x y = ∑ i = 1 n ( x i − x ˉ ) ( y i − y ˉ ) s x x = ∑ i = 1 n ( x i − x ˉ ) 2 s y y = ∑ i = 1 n ( y i − y ˉ ) 2 s_{xy} =\sum^n_{i=1} (x_i-\bar{x})(y_i-\bar{y}) \\ s_{xx} =\sum^n_{i=1} (x_i-\bar{x})^2 \\ s_{yy} =\sum^n_{i=1} (y_i-\bar{y})^2 sxy=i=1n(xixˉ)(yiyˉ)sxx=i=1n(xixˉ)2syy=i=1n(yiyˉ)2
由上述定义我们可以看出 r ∈ [ − 1.1 ] r\in[-1.1] r[1.1]

我们还可以把相关性 r r r 理解为最小二乘法确定的 x , y x,y x,y 变量方向之间的余弦值。你可以通过 Edgar Anderson 的著名的 鸢尾花(Iris flower)数据集例子来进一步探索这个概念。选择下方鸢尾花种类:
fig

点击下面相关性矩阵来探索各个品种鸢尾花之间的相关性。

fig
实验效果:
fig

(再次)选择:

fig
实验效果:
fig

3. 方差分析

方差分析(ANONA,Analysis of Variace)是一种检验各组数据是否有相同均值的统计学方法。方差分析将t检验从检验两组数据均值推广到检验多组数据均值,其主要方法是比较组内和组间平方误差。

选择一个数据集来进行探索:

3.1 数据集1.

fig

你可以移动数据点然后观察这些改变如何影响方差分析的结果。

fig
点击下方方差分析表格的各列来进一步了解各参数的意义。
fig
S S E SSE SSE (sum of squared residuals)指的是残差平方和。其数学定义如下:
S S E = ∑ i = 1 n ( y i − y ˉ ) 2 SSE = \sum_{i=1}^{n} (y_{i} - \bar{y})^{2} SSE=i=1n(yiyˉ)2

d f df df(degree of freedom)指的是自由度. 其数学定义如下:
d f = n − 1 df = n - 1 df=n1

M S E MSE MSE(mean squared error)指的是均方差,其数学定义如下:
M S E = S S E d f MSE = \dfrac{SSE}{df} MSE=dfSSE

F F F 是一个检验统计量,其数学定义如下:
F = S S T / ( k − 1 ) S S E / ( n − k ) ∼ f k − 1 , n − k F = \dfrac{SST/(k-1)}{SSE/(n-k)} \sim f_{k-1,n-k} F=SSE/(nk)SST/(k1)fk1,nk

p p p 是由 F F F 统计量得出的 p 值。

3.2 数据集2

fig

fig

fig

3.3 数据集3.

fig
fig

fig

  • 【看见统计】全文内容摘自:https://seeing-theory.brown.edu/cn.html
  • 【时间】2022.03.25
全文完
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值