文科生的统计学：线性回归模型的推断统计假设

最新推荐文章于 2022-12-27 15:00:37 发布

usamiriko

最新推荐文章于 2022-12-27 15:00:37 发布

阅读量1.1k

点赞数

文章标签：线性回归回归机器学习统计学

本文链接：https://blog.csdn.net/usamiriko/article/details/121623887

版权

仅供参考，仍在修改补充中，无严格数学证明，没有严谨的数学基础。是为了政策中的数据分析和为计量经济学学习做的铺垫，目的是从感觉上理解统计学概念，并用自然语言表达。

线性回归统计推断的假设
（课上的说法，其实不只有三个，而且不是这么说的。没有理解假设的概念，目前可以理解为进行统计推断的条件，在这种情况下，估计是无偏的）
最小二乘法下拟合的回归模型：
残差平方和最小
残差均值为零
拟合值是真值的期望（平均值）

::1. 线性假设::
这个其实在推断统计之前我们刚开始学回归分析的时候就有提到过，全都基于最小二乘法残差平方和最小。*残差和为零是线性模型本身的基本要求*。只有这样，模型本身的系数才是有意义的。
即给残差-拟合值图像分区，只要有一个区的均值不是零就不行
也叫模型设定假定，规定Y 的条件均值是自变量X的线性函数。可以将非线性函数转换成线性函数，比如对数变换，仍然保持最小二乘法估计值的性质。

::2. 齐方差假设::
总的来说，就是每一个对应的拟合值上的残差值的方差应该是差不多一样的。理论上，一个拟合值可以对应（无限个）多个真值。所以可以说“所有残差的方差”，每个拟合值有一群残差的。只不过是连续的，所以你会疑惑。
谢宇：“*Y的方差不随X的改变而改变，残差的方差必须一致*，如果两组样本方差不一样，那我们无法判断数据中的干扰项是不是一样的。”
同方差假定如果违背，有些估计量还是无偏的而且可以被解释，比如截距、斜率或者r方，但是不可以做统计推断。此假设也可以成为外生性假设，根本目的是为了排除自变量对残差——误差的影响。*所以如果违背此假设，RMSE不能interpret*

补充解释：
谢宇：独立同分布假定，残差相互独立，而且遵循同一分布。任何两个残差之间的（未完）
知乎：保证方差足够小
只有这样，RSE才是有意义的

::3. 正态假设::
残差频率分布服从正态分布
样本越大估计越稳健

原因一：方便建模之后的统计推断。只有符合正态假设才能更好地进行t检验，标准误才是有意义的。
如果残差是正态的，RMSE已知，那么估计回归系数的样本分布也是正态的。但是由于RMSE未知，所以将样本标准差代入后，服从自由度为n-1的t分布。是的，可以说，t分布与正态分布的区别就在于分母的不同，自由度的不同。当样本容量无限大的时候，t分布无限接近正态分布。所以，为了让t检验有意义，样本误差最好符合正态分布。

原因二：这个世界上有很多种误差，受到许多相互独立的随机因素的影响，总的影响可以看做是服从正态分布的。（据说可以证明）

::对模型假设的检验：::
::残差-拟合值图像：::
::检验线性假设：::
分区残差和（均值）为零，如果不为零就不是线性的，在某些区域就是有偏的。预测的回归不是结果的均值。模型系数本身会有偏

::检验齐方差假设：::
看看是不是异方差，如果是异方差，那就违背了。课上的说法：可以反过来观察是不是有异方差性。残差的分布是不是有明显的趋势，可能是从左到右增大，或中间小两头大。如果是这样的话就是违背了齐方差假设。

::残差直方图（或残差和正态分布的分位数Q-Qnorm图）：::
用来检验残差正态性假设，直接看图像是不是正态分布就行。

::模型整体检验：::
回归方程的解释力由判定系数R方衡量，所以模型整体检验是对R方的检验，我们需要重新构造一个与R方相联系的统计量。
将MSR和MSE加以比较，用F检验来分析二者之间的差别是否显著
SSR：回归平方和，真值和平均值之差的平方和
SSE：残差平方和，真值和拟合值之差的平方和
MSR：回归均方，简单回归时只有一个自变量所以SSR的自由度为1。
MSE：残差均方 SSE/自由度，它是总体误差的方差的无偏估计。由于决定回归直线需要截距和斜率两个参数，所以其自由度是n-2
RMSE：MSE开方，是真值到回归线的平均高度
F统计量：
MSR/MSE
用MSR和MSE构建F统计量，来进行F检验。注意，这里检验的仅仅是线性关系，即使F检验不显著，他们之间也不是没有关系，可能存在其他非线性关系。
F检验过程：
根据
1. 选定的显著性水平
2. 分子自由度和分母自由度
找到相应的临界值，和计算出的F统计量作比较

::回归系数检验::
回归系数的标准误：
公式，数学证明，至于怎么推的，我目前不知道，也不太重要。

从公式可以知道（引自谢宇）：
残差的标准差越大，变异越大，估计标准误也就越大，就越难准确地预测截距项。
自变量变异越大，估计标准误越小，我们能更容易地发现Y和X的关系，预测出的b1更准确。
样本量增加，估计的准确性也会增加，估计标准误越小。

由于总体中残差的方差是未知的，所以要用残差均方（MSE）（即样本的残差方差）作为其无偏估计。损失两个自由度

零假设：总体的回归系数为0
（注意：即使没能拒绝零假设，也不能说Y不受X影响）
零假设成立时，估计量b0和b1都服从自由度为n-2的t分布
（准确地说，有几个估计量就要减几个加一自由度）

usamiriko

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
文科生的统计学：线性回归模型的推断统计假设

仅供参考，仍在修改补充中，无严格数学证明，没有严谨的数学基础。是为了政策中的数据分析和为计量经济学学习做的铺垫，目的是从感觉上理解统计学概念，并用自然语言表达。线性回归统计推断的假设（课上的说法，其实不只有三个，而且不是这么说的。没有理解假设的概念，目前可以理解为进行统计推断的条件，在这种情况下，估计是无偏的）最小二乘法下拟合的回归模型：残差平方和最小残差均值为零拟合值是真值的期望（平均值）::1. 线性假设::这个其实在推断统计之前我们刚开始学回归分析的时候就有提到过，全都基于最小二
复制链接

扫一扫