sas一元回归分析_回归分析|笔记整理（1）——引入，一元线性回归（上）

最新推荐文章于 2024-03-03 11:16:21 发布

weixin_39727105

最新推荐文章于 2024-03-03 11:16:21 发布

阅读量783

点赞数

文章标签： sas一元回归分析宋浩概率统计笔记

大家好！

新学期开始了，不知道大家又是否能够适应新的一学期呢？先祝所有大学生和中小学生开学快乐！

本学期我的专业课是概率论，回归分析，偏微分方程，数值代数，数值逼近，金融时间序列分析，应用金融计量学和商务英语。在所有的这些课程中，回归分析其实相对来说是比较友好的。但是学统计的人应该都会有感觉就是，回归分析这一门课无论是在理论还是课后的软件实践上，都是非常重要的一门统计课。这也是我决定好好花点时间，整理整理这一门课的笔记的原因。

这一份笔记需要有《概率论》和《数理统计》的先修知识。如果你修过工科的《概率统计》应该也够了。因为个人数学专业的缘故，所以这一系列的笔记大部分会关注回归分析的理论而不是实践。个人认为，虽然现在关于回归已经有非常多的软件能够实现，但是只有真正了解它的本质，才能在研发和创新上有路可走。因此这一部分笔记其实非常适合了解回归内容，会使用软件跑回归，但是不太清楚回归的一些基本参数和原理的人去阅读。

我们在之前的《统计学笔记》系列也确实有简单提到过回归分析（第7节），但是远没有这一份笔记来的系统。而且那一篇笔记只是一个简单的勾勒，在具体的原理细节上都说的很不清楚。因此这一系列的笔记，如果会一直更新的话，将会在《统计学笔记》的基础上做进一步系统而深入的细化，并努力把相关的理论解释清楚。

因为暑假的时间很紧张（带孩子去了……），自己的之后的研究规划什么的还没有完全确定，因此暑假其实没有太大的贡献。当然我自己还不清楚会有什么其余的打算。但是不管怎么说，虽然别的内容是否总结整理我还没有定，但是这一系列笔记，我会尽力的去跟上教授的进度，并展现在这里。

我们学校的《回归分析》是根据教授自己的slides进行授课的。所以我们的所有的笔记内容都会与教授的讲义有关。如果需要一本参考书的话，推荐人大的《应用回归分析》。但是教授自己也说了，这书很不理论……

《回归分析》是我上的真正意义上的第一门统计专业的理论课。不可避免的是相比真正的统计学，我的笔记因为自己的理解很多，所以不能保证所有的内容都是“正确无误”的。如果发现了一些问题，也欢迎在评论区指正！

好了，废话就说到这里了，我们开始本节的内容吧。

引言——关系(Correlation)与回归的由来

研究代数方向或者学基础数学的人可能会把“关系”与集合论联系到一起？为了防止出现这个误解，我标注了一下英文……

任何一个合格的大学生，都肯定在高中数学的《选修2-3》中接触过回归(regression)，在那个时候我们就知道，回归分析就是给了一些数据点，根据这些数据点画一条直线，然后我们就根据这条直线去做预测。所有学统计的人也应该都会有一种感觉，就是说，统计一定程度上，破坏了数学的严谨性。出现这一条鄙视链的原因是，统计研究的是一种非确定性关系。

作为一个学数学的人，在没接触统计学之前，最烦的就是“不确定”。一加一等于几，你不能说它又是2，又是3。抽象一层来说，就有点“函数”的意思。在初中第一次接触函数就知道，给定一个自变量

，你必须要告诉我确定的

是多少。这就是

确定性关系。它不打马虎眼的，结果是确定的。

那么为什么说统计“不严谨”呢？比方说你研究一个人身高与体重的联系，这个时候，你告诉我一个人的身高

，我是没有办法告诉你一个确定的体重

的。出现这样的问题的原因归因于

世界的概率和未知。换句话说，世界上任何一个事情，都是有自己的 概率分布的。比如说“太阳不可能从西边升起”这句话，实际上暗含的意思是“太阳从西边升起的概率为0”（当然细究一下这句话确实也不够严谨，因为概率为0并不代表不会发生）。所以只能说使用统计去找到某一个“最有可能发生的地方”，然后认为这个“概率最大”的地方就是我们要的结果。比如说我告诉你我身高是184cm，那么通过统计，你可以认为我“最有可能”体重是75kg，那么一般来说，如果作预测，你可能就会说，你“预测”我是75kg。但是实际上不一定是75kg的。

那么回归分析是怎么回事呢？如果我知道对于每一个

都有一个确定的

，那么就没统计什么事了。但是如果对于每一个

都有一个确定的

的

概率分布，你就会发现坏事了。下面一个图展现了这个问题，也展现了具体的“非确定性关系”。

对于每一个具体的x，都会有不同的概率分布，那么想给定一个确定的y就不可能了，因为在概率分布上的每一个值y都有可能是最终的结果。

为了勾勒出这种“非确定性关系”，我们引入了相关分析和回归分析。相关分析就是很单纯的，研究两个变量之间的关系。我当然可以认为两个变量都是随机变量。但是回归分析，是要研究因果关系的。要求给定的

，也就是“原因”，要明确。这会引出我们之后说的

回归分析的三大基本假设之一。而回归分析，本质上，就是把可能 概率最大的点给找出来，然后画在图上。这个我们之后的细节也会涉及到。

其实回归这个词本身也有它自己的来历，感兴趣的可以关注下高尔顿的农场实验。关于关系，就废话这么多。所以感觉学统计就是好，随随便便说废话也没人管我。不像纯数学怎么编废话都编不了几句……

一些回归的概念

首先要说明什么是回归函数。我们之前说了，给定一个

，出来的其实是

的一个概率分布。因此我们实际上要研究的，其实就是

（为什么这么说，之后会解释）。所以为了研究回归，我们说

就是回归函数。

那么什么是线性回归呢？请注意，它是针对回归系数要求线性。比方说常见的多元回归

，它依然是一个线性回归函数，因为

都是一次的。

那么什么是回归方程呢？讲白了，如果回归函数的形式我们找到了，那它就变成回归方程了。比方说我们发现

，那么回归方程就是

。因为嫌

太麻烦了，所以我们就直接写成

，这就是我们熟悉的回归方程的形式了。

说到回归方程，就又多了两个概念——理论回归方程和经验回归方程。什么意思？理论回归方程，就是说我们知道了具体的形式，但是不知道系数。一般写成

而经验回归方程就是说，我们通过了一系列的操作，把系数给“估计”出来了，那就变成了经验回归方程。一般写成

。

有人问，为什么说是“经验”回归方程？没有错，通过这么一个回归函数，我们确实可以有法子，在给定我的

之后，把我的

的概率分布的最大的点确定下来。但是，

能确定

的概率分布吗

？放心吧，统计学家早就放弃这个打算了。所以实际上我们确实找到了回归系数，但是我们一定是没办法找到“正确的”系数的，因为你没有办法捕获所有的影响

的因素。正因因此，我们说它是“经验的”，其实暗含的意思是，我们通过了已知的，经验的数据，去“预测”回归系数，应该是这个最好。但是真正它是多少，我们永远没有办法知道。

也正是这个原因，我们认为，无论你怎么写回归函数，最终的结果都是有偏差的，这也是引入误差项的原因之一，也就正好引入了回归方程的一般形式：

。

三大基本假设

勾画出具体的两个变量之间的关系，不做点假设你从哪里下手？所以我们在回归之前，做了三个基本假设。

Notation 1: Three basic assumptions of regression analysis
(1)
非随机。

(2)
(Gauss-Markov条件)

(3)

(正态分布假定)

第一个假设的意思就是“原因要明确”，我们在之前的引言有说。第二个假设是为什么呐？我们做一个数学推导就能看出来。

Deduction 1:

看出来了吗？中间我们用了假设

。如果这个假设不对，那么我们的回归函数的形式就错了，那也就是说我们刚开始研究的根基就被破坏了。这显然是不被允许的。

当然有人问，那如果

怎么办？一般是没有关系的，比如说它是一个常数

，那么它可以被“吸收”进

里。也就是说，设

，然后认为

是回归函数即可。

第二个假设的第二条是为什么呐？这里的我们的假设的意思相当于，允许有一定的方差，但是误差项之间协方差必须为0，且误差项本身的方差必须在每一个点都相等。一方面，如果几个数据点之间有关系了是什么一个情况？一个经典的例子就是多重共线性。我们不在这里给出这方面的细节，但是我们之后的笔记中会具体的说明有关多重共线性的内容。当然，另一方面，如果每一个点的方差不一样怎么办？这个我们有专门的说法叫异方差性。出现了这种情况的话，统计学家也有自己的方法去解决它，之后的笔记里会涉及到。

第三个假设也很好理解，如果残差项之间不是无关的，那么出现的问题，上一段已经说过了。为什么要假定为“正态分布”呢？除去正态分布的满足的比较好的一些性质以外，还有一个考虑是，它让回归“有办法”能够捕获到“概率最大”的点。下面的图就说明了这一点。

正态分布的期望值就正好落在最高处，也就是说，我们要求的E(y|x)对应的那个x值就正好是概率最大的点，符合我们的预期。

所以，我们差不多算是说完了回归的最基本的一些东西。现在开始，我们要坐上数学的车了……

一元线性回归

参数估计

一元线性回归的基本形式就是

。通过这个我们可以得到的一个结论是

。通过两边取期望和方差是容易看出来这一点的。

我们之前说过，回归函数就是用来预测非确定性关系的。但是你作为一个函数，总不能连系数都不知道吧？所以才有了估计系数的说法。对于一元线性回归，估计系数自然就是估计

了。

估计参数的方法自然不少，这里主要说两种。

最小二乘估计(OLSE)

要知道，回归分析的基本操作原理是“捕获信息”。也就是说，我们需要通过已有的信息，去推测出新的未知的信息。那么什么是“已有的信息”？自然就是给定的一些数据点了。我们在之前解释过，我们根本不可能完全预测准确，对于给定的

，它所对应的确切的

是多少。但是我们很明显，为了精确，是希望能够“

减小误差”的。而最小二乘估计的目的就是去减少这种误差。数学公式表示出来就是

，其中

是一系列已知的数据点。

那么为什么要使用平方呢？有人问我用

不行吗？直观上来看，这样似乎没有太大的问题。但是

你怎么求它的极值呢？别忘了，我们既然要“减小误差”，那自然就是需要去寻找它“最小”的时候。怎么寻找极值，所有的高中生都知道应该使用导数。行了，绝对值处处可导吗？好像不是吧。基于这个考虑，我们使用了平方。

好的，回到正题，要注意的地方是

，所以我们归根到底，就是要最小化

。如果我们设这个函数为

，要求极值？别想了，求偏导吧。所以我们自然可以通过求偏导，去得到最终的结果。

具体的推导细节，在《统计学笔记》的第7节中可以找到，这里我们直接给出推导的结果。

Notation 2:

因为这里我们找到了这两个具体的系数，所以自然，系数的符号要改为

了。

最大似然估计(MLE)

只要你学过《概率统计》，就不会感到陌生。

我们之前对

，也就是误差项，作过正态分布的假定。又因为

是

的一个线性组合（别忘了，

不认为是随机变量），所以实际上

也是服从正态分布的。因此它的概率分布函数就是

。那么乘在一起就是

显然这个函数直接求导是不切实际的，因此我们取一下对数，得到

。

当然了，这并不会让很多人觉得简单很多，因为看上去还是存在一定的复杂度的。但是别忘了，什么是最大似然估计？意思就是要最大化

，也就是最大化

。注意，在

已知的时候，如果我们要最大化

，那么其实最后的目的就是最小化

。

有没有感觉似曾相识？对，这就是OLSE了，所以实际上，最后我们得到的结果，

的估计值其实是与OLSE无差的。最后的问题其实就回到了

的估计。

要估计

，还有一个技巧就是，你可以把

当作一个变量去考虑，这样求导就会方便很多。最后我们得到的结果如下：

Notation 3:

与之前相同，其中

。

参数的统计性质

其实在之前，我们就已经涉及到了不少新的参数，它们自然也有自己的性质，我们一一介绍。

残差关系式

我们回到最小二乘估计的过程中去，求偏导得到的两个式子是什么？

Notation 4:

别忘了，估计完

之后，它们俩的标记就变为了

。另外还要注意的是，

。因此我们实际上，根据这两个式子，得到的残差关系式就是

Notation 5:

的相关性质与统计量

首先是线性性。我们来看一下

，我们之前已经说过，

，那么对分子我们拆开一下，可以看出

（注意，

不随指标变化，而

）。那么又因为

的分母也是一个常数，所以我们可以看出，

它实际上就是

的线性组合

。这样的话，

也自然不用说了，很简单就能看出来。

其次是无偏性。我们先证明

。

Deduction 2:

（想想为什么，我们之前有说过）

最后一条需要注意到

根据这个，我们来看看

的情况。

Deduction 3:

最后一步注意到

OK，下面是一个更刺激的东西——方差。这么说的原因是它的运算相比期望来说要更加复杂一些，我们继续看它们方差的推导。一样，先看看

Deduction 4:
（注意每一个

之间的协方差为0）

（关于

而言，之前一大串都是常数，可以直接从var()内拿出来）

根据这个，

就好推了。

Deduction 5:

（注意两个常数之间协方差为0）

下一步，是关于两个参数的分布。这没什么好说的，因为

都是服从正态分布的，所以

也自然服从正态分布，所以就得到了它们俩也是正态分布的结论（由线性性）。

最后也是最有技巧的部分——协方差。这个推导如果找错了方法，是很要人命的。这里给一个我同学想出的比较容易的推导过程。

Deduction 6:

到目前为止，我们过完了所有的参数相关的统计量。也因为参数是具有统计量的，因此这就暗示了我们估计的参数，实际上也是不确定的。

在说之后的内容之前，我们事先给定一些记号。这些记号已经在《统计学笔记》中出现过，引入它们只是为了方便（而且是大大的方便……）。

Notation 6:

最佳线性无偏估计(BLUE)

这是关于

的另外一个比较独特的性质。因为它其实是一个大定理，所以我们单独拉了出来。首先还是一样，看看到底这是啥吧。

Definition 1:Best Linear Unbiased Estimation
对于参数
的一个无偏估计

，如果对于任何一个它的无偏估计

，都有

，则称

是

的最佳线性无偏估计。

那么下面这个大定理要说的就是

Theorem 1:
在G-M条件（回归三大基本假设的第二个）下，
是对应的最佳线性无偏估计。

我们证明一下这个结论。

显然我们要关注的重点就是，是否对于任意的一个无偏估计

，都会有

。选择使用

的形式是因为，

的任何一个估计都是

的线性组合，我们已经在之前介绍过这个性质。

下面我们做一点推导。

Deduction 7:

我们需要注意的是，第二个式子针对任意的

都需要满足，因此我们可以得到的结论是。

Notation 7:

现在我们来考虑方差，不妨设

，那么我们显然要对方差做一点变换。为了凸显出两个估计参数之间的差异，我们不妨做一点加减运算。

Deduction 8:

显然，如果我们需要得到方差的这个结论，我们只需要考虑

的情况就好。

下面，我们主要来推导最后的协方差。

Deduction 9:

（能放在外面的原因是，每一个

之间协方差为0）

也就是说，我们推导出协方差其实是0。这就说明，

，而方差又是非负的，于是结论自然就成立了。

通过这些不太显然的性质，相信大家也不难明白为什么线性回归现在依然很火了。另外，请不要在意求和号的一些细节，我只是懒得把上下标打上去了……

小结

这一节是一节相对来说比较偏引入的笔记。因为统计学科相对比较贴近实际，也有很高的实用性，因此大家的阅读难度没有之前的几个专题笔记那么大，并且我也有充分的理由说一大堆的废话……但是因为统计毕竟也算是数学（虽然有的人并不认为它是数学），所以也还是会涉及到一定量的定理和性质。在回归分析中，很多运算的技巧是需要记住的，这些都在笔记中有所体现。

我们之后有可能会补充一些习题作为性质的补充，但是这一节就暂时没有了。

感谢大家的支持~我会继续抽时间去贡献高质量有诚意的创作！

——————————————————广告——————————————————

本专栏为我的个人专栏，也是我学习笔记的主要生产地。任何笔记都具有著作权，不可随意转载和剽窃。

个人微信公众号：cha-diary，你可以通过它来有效的快速的获得最新文章更新的通知。

本人最近在寻找与数据科学，计算数学，统计有关的科研和实习机会。希望各路大佬神仙如果有看得上我的可以和我联系下~谢谢你们！

想要更多方面的知识分享吗？欢迎关注专栏：一个大学生的日常笔记。我鼓励和我相似的同志们投稿于此，增加专栏的多元性，让更多相似的求知者受益~

weixin_39727105

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
sas一元回归分析_回归分析|笔记整理（1）——引入，一元线性回归（上）

大家好！新学期开始了，不知道大家又是否能够适应新的一学期呢？先祝所有大学生和中小学生开学快乐！本学期我的专业课是概率论，回归分析，偏微分方程，数值代数，数值逼近，金融时间序列分析，应用金融计量学和商务英语。在所有的这些课程中，回归分析其实相对来说是比较友好的。但是学统计的人应该都会有感觉就是，回归分析这一门课无论是在理论还是课后的软件实践上，都是非常重要的一门统计课。这也是我决定好好花点时间，整理...
复制链接

扫一扫