多元线性回归（二）

听风起

已于 2023-11-12 02:02:47 修改

阅读量1k

点赞数 1

分类专栏：数学建模文章标签：数学建模

于 2023-11-01 23:43:20 首次发布

本文链接：https://blog.csdn.net/2303_76664877/article/details/134167625

版权

数学建模专栏收录该内容

22 篇文章 1 订阅

订阅专栏

本文详细解读了多元线性回归中的系数解释、对数变换的应用、虚拟变量设置、异方差和多重共线性的处理方法，通过实例分析奶粉和期末数学成绩影响因素，同时批判了一篇错误论文的建模问题，介绍了逐步回归分析作为解决多重共线性的策略。

摘要由CSDN通过智能技术生成

一.四种模型的解释_虚拟变量的设置以及交互项的解释

我们继续来研究多元线性回归。

先来看多元线性回归系数的解释。在我们得到了一个问题的线性回归之后，自然而然的就想用回归去解释我们的问题。其中，我们的常数项β0的估计值不具有现实意义，它表示在我们其他所有的自变量同时为0的时候y的估计值，而在实际中不可能所有的自变量同时为0。在解释其他的回归系数时，我们首先应限制条件在控制其他自变量不变的情况下，自变量每增加一个单位对因变量造成的变化。比如，之前我们得出产品销量与产品品质评分和产品价格之间的多元线性回归模型，其中，品质评分前面的回归系数为0.19，它就解释为在保持其他变量不变的情况下，评分美增加一个单位，产品的产品销量增加0.19。

如果我们对自变量去了对数，解释起来也就是把xi看成lnxi解释起来即可。那么，就有一个问题是，我们什么时候该对自变量取对数呢？

在计量经济学中有说明，取对数意味着被解释变量对解释变量的弹性。目前来看，对于什么时候取对数并没有固定的规则，但有一些经验法则。参考ppt，我们可以大致了解法则和取对数的好处，其中，在好处的第一点中说明可以减弱数据的异方差性，这个异方差我们之后会详细解释，其次就是取对数可以使模型更具有经济学意义。

我们举出了计量经济学中关于取对数的四类模型回归系数的解释，重点理解y与x之间的弹性，意味着发生百分比的变化而不是数值的变化。

我们引出了一个新的概念，叫做虚拟变量。在前面，我们建立回归时，可以发现，我们的自变量都是有具体数值的，我们将这些变量定义为定量变量。但除此之外，还有一种变量叫定性变量，例如性别，它的取值不再是简单的数值，我们在对这些变量建立回归时，首先要把定性变量转换为定量变量，转换的这个过程就叫做创建虚拟变量，最后创建出的新的定量变量就叫虚拟变量。比如，我们可以令虚拟变量等于1的样本称为女性，而虚拟变量等于0就表示样本为男性。

同样的，在我们建立出回归之后，得到虚拟变量的回归系数之后，我们也要对虚拟变量进行解释。依照ppt，可以看出，C是扰动项，虚拟变量为1的期望是回归系数加上扰动项，虚拟变量为0的期望值是扰动项，因此，将他两相减，可以得出回归系数。我们将其解释为：在其他自变量给定的情况下，女性的平均工资与男性的平均工资的差异。其实就是把男性看作是一个基准，回归系数就表示了女性与男性作比较后的差距，理解起来可能会有点抽象。

在我们研究实际问题中，我们可能会有很多组的定性变量，如果要对它们建立回归，需要将它们全部转化成虚拟变量才可以。这样就引发了一个问题：我们可以引入多少类虚拟变量。

在这里我们以一个实际问题来解释。我们先给出结论：引入虚拟变量的个数一般是分类数减1，如果我们引入所有的虚拟变量，会引起完全多重共线性。

我们想要探讨我国网络贷款中是否存在显著的地域歧视问题。从图中可以看出，如果这个贷款人是来自江苏或浙江的话，贷款的成功率是比较高的；山东的违约率是最高的。针对这个问题，我们的被解释变量是是否获得贷款，解释变量是省份，是一个定性变量，我们要把省份转化成虚拟变量。参考别人的解答，在剔除了港澳台三地后，还剩31个省份，设置内蒙古为对照组，将其余的30个省份设置成虚拟变量，估计出所有的回归系数。回归系数可解释为，其他省份贷款的成功率与内蒙古贷款的成功率之间的差距。

这里我们又引出了一个新的概念，叫含有交互项的自变量。意思是自变量与自变量之间存在交互关系，这样我们在建立回归时，需把这两个解释变量写成相乘的形式，具体的解释和例子可参考ppt。

二.回归的应用_奶粉例题详解

这里我们以一个实例来应用我们的回归解决问题。

我们先来研究第一个问题，以评价量为因变量，分析其他变量和评价量之间的关系。在这里，为了方便我们使用回归解决问题，我们使用的软件是Stata。

导入数据后，我们想要对我们的数据进行描述性统计。参考问题的excel表格，不难发现，我们一共有三个定量数据，分别是团购价元、评价量和商品毛重。而除此之外，均为定性变量，在建立回归之前，我们可以很方便的使用Stata对我们的虚拟变量进行设置。在这里仅仅给出描述性统计的结果，具体的软件操作步骤不做详细介绍。

可以看出Stata对我们的数据进行了描述性统计的表格。针对定量数据，给出了数据的均值，最大值和最小值。针对定性变量，返回对应的这个变量的频率分布表，并生成了对应的虚拟变量。

在这里将我们总共11个指标进行了汇总。

接着，我们要借助Stata来建立回归，而用Stata建立回归的语句也十分简单，仅仅只需要一行代码，默认使用的建立线性回归的方法是我普通最小二乘估计法。

在这里，我们先尝试的以评价量为被解释变量，团购价元以及商品毛重为解释变量建立了多元线性回归。其中Stata给我们返回来了两张图表。针对第一张图表，第一列的SS分别表示之前拟合中提到的SSR、SSE、SST，第二列的df表示自由度。我们主要关注的是后面的p值以及拟合优度R方。其中，p值表示我们的回归是否建立的有意义，如果p值大于0.05，则表示在95%的置信区间下，我们的回归建立的是没有意义的，针对本回归，可见该回归是有意义的。

对于第二张图表，第一列给出了不同解释变量的回归系数。其中，最后_cons则代表了回归中的常数项β0的估计值。重点关注的是第四列p值得大小，若p值小于0.05，代表在95%的置信水平下，该回归系数显著的异于0，我们以此来判别我们的解释变量是否是显著的。

前面我们建立了定量变量的线性回归，如果加上虚拟变量的回归会怎么样？

之前我们提到过，如果我们引入虚拟变量的个数过多，会引入完全多重共线性的影响。而在Stata中，会自动检测数据的完全多重共线性问题。会自动地忽略不引入一些虚拟变量。

接着我们来关注拟合优度较低的问题。首先，回归分为解释性回归和预测性回归，一般只有预测性回归更看重拟合优度，但我们一般不会用拟合来去解决预测问题，在后面，我们会使用专门的时间序列和灰度预测来解决预测问题，所以，一般更常用的是解释性回归。在解释性回归中，我们更多的关注模型整体的显著性以及自变量的统计显著性和经济意义显著性即可，不会过多的关注拟合优度低还是高。但我们也可以尽可能去解决拟合优度过低的问题。例如，在ppt中说的对数据取对数或平方后再进行回归。同时，拟合优度过低可能是由于数据中存在异常值或者数据的分布极度不均匀导致的。

一般，我们更关注的是调整后的拟合优度。因为如果我们引入的解释变量越多，拟合优度是一定会变大的，因此，我们倾向使用调整后的拟合优度。

经过我们的分析，我们可以直接使用Stata建立已评价量为因变量，其他变量为自变量的多元线性回归，所以，关于我们奶粉例题的第一问就已经解决了。接着是第二问，要以评价量为因变量，研究影响评价量的重要因素。

对于第二问，同样需要我们来建立多元线性回归。只不过，为了研究影响评价量的重要因素，我们要使用标准化回归系数。标准化系数的绝对值越大，则说明对因变量的影响就越大，但要注意的是我们只关注显著的回归系数。

在Stata中建立标准化的多元线性回归也十分方便。

在这里我们通过建立评价量与团购价元和商品毛重的标准化多元线性回归。可以很明显的看出，团购价元和常数项的回归系数是显著的，同时，团购价元的标准化回归系数的绝对值也是最大的，因此，对于评价量来说，团购价元的影响是最大的。于是，我们可以通过建立评价量与其他变量的标准化多元线性回归分析出同样的结论。

三.点评一篇错误很多的论文_期末数学成绩的影响因素探究

我们再来关注另一道例题，批判一篇应用了多元线性回归的论文，主题是《基于多元回归模型的大学生期末数学成绩影响因素分析》。我就只截取论文中比较重要的部分。

这是论文中建立的多元线性规划的模型，与我们不同的是，我们一般不会约定扰动项是服从正态分布的随机变量。

这是模型的数据来源，可见期末成绩作为模型的被解释变量，解释变量一共有4个，分别是高考数学成绩、高考总分、班干与否，这个解释变量很明显是一个虚拟变量还有平时成绩。注意论文中所说，在建立模型时对得到的数据进行了归一化处理，这一步纯纯的多次一举，对于引起了什么样的错误，我们接着往下看。

这是模型的建立过程，我们重点看作者对于模型建立的解释。说求解后，得到相关系数R方的值等于0.7134，且回归系数的置信区间大部分都包含原点，显然结果不太满意。首先，这里说的相关系数应该是拟合优度，其次，作者在这里并没有说明求解出的各个回归系数是多少，也不知道各个回归系数是否显著，这是不可以的。回归系数的置信区间大部分都包含原点，对结果不太满意，这点是可以认同的，我们对回归系数进行假设检验判断是否是显著的其实也就是判断回归系数是否显著的异于0，如果回归系数的置信区间包含0，实际上就说明回归系数不显著，可能是这个意思。

接着，我们来看作者的改进过程，作者在多元线性回归的基础上添加了平方项，同时考虑了班干部是否与平时成绩两因素的交互影响，进行残差分析并剔除异常数据后，得到了新的回归模型。

这一次列出了各个回归系数，同时得到了新的拟合优度，并且回归系数的置信区间仅少数包含零点，说明模型回归比较理想。这里我们继续批判，首先，他还是没给出回归系数是否是显著的，其次，我们之前说，我们引入的自变量越多，拟合优度是一定会变大的，因此，我们更倾向于使用调整后的拟合优度，他这里改进了个寂寞，其次，你既然添加了平方项，为什么不添加X2的平方项，是不是对X2有意见？

最后，我们来看模型结果分析，他这里说对于回归模型2，求解四个因素偏导的最大值，我也不知到他是咋求出来的，其次，注意高考总分的偏导值竟然是负数，也就是说，在建立的模型中，高考总分考的越高，大学数学期末成绩反而会越少，这不是很奇怪的吗？至于为什么会出现这样的问题，都是由于之前的画蛇添足，在建立回归模型1时，先对数据进行了归一化处理，所以，我们的数据一开始就是错误的，又怎么会得到正确的回归模型呢？这也警示了我们在建立模型之前不要对数据进行任何处理。

四.异方差_多重共线性以及逐次回归的介绍

在之前我们曾多次提到了我们的扰动项，之前我们的扰动项都是随机产生的，但实际上，我们的扰动项也要满足一定的条件，如满足“同方差”和“无自关性”两个条件。我们经常分析的横截面数据就容易出现异方差的问题，我们后面所学到的时间序列数据就容易出现自相关的问题。

这里我们简单的理解异方差，重点是如果扰动项存在异方差，假设检验将无法使用，即我们无法判断我们的回归系数是否是显著异于0的，同时OLS估计量不再是最优线性无偏估计量。

那么我们应怎样解决异方差？一种简单的方法是使用广义最小二乘估计法GLS，具体的原理在这里不做详细介绍，还有一种方法是使用OLS+稳健的标准误。

我们首先要做到如何检验异方差，其次才谈得上解决异方差。这里我们简单检验异方差的方式是用Stata画出残差与拟合值的散点图。

这里我们发现了一个问题，在图中为什么拟合值会出现负数。

我们观察右侧那张图，这是评价量的概率密度分布图，从图中可见概率密度大都集中在评价量很小的时候，而在评价量上升之后，概率密度甚至接近于0，可见，评价量的分布极度不平衡，大多数个体的评价量都较小。同时，在对评价量进行分析的时候，也可以发现，75%的奶粉品牌的评价量都小于1109，而样本均值却达到了15800，从侧面也反映出了绝大部分品牌的评价量都较小，因此，分布不平衡是导致拟合值出现负数的原因。

我们通过散点图判断检验异方差是否存在只是一种很粗糙的方式，在真正的建模过程中，我们通过异方差的假设检验来判断是否存在异方差。

这里我们通过BP检验来检验异方差是否存在，但我们一般更普遍使用的是怀特检验，BP检验可以看成是怀特检验的特例，我们仅作为了解使用。

对于怀特检验，我们使用的次数就普遍多了，他可以检验任何形式的异方差。怀特检验的原假设是不存在异方差，在Stata中，我们也可以很方便的使用。

对于异方差的处理方法，我们一共给出了两种解决方式，我们普遍使用的是使用OLS+稳健的标准误的方式，对于为何不使用广义最小二乘法GLS的原因，ppt已经给出了很详细的解释。

Stata使用OLS+稳健的标准误的方式也很简单，只需在线性回归的命令后加上robust即可。

最后，在介绍我们之前遗留的一个问题，那就是多重共线性。之前我们说过，如果引入的虚拟变量过多，那就会引入多重共线性。在之前，我们说，Stata可以自动识别并删去多余的虚拟变量，从而解决多重共线性，但其实，Stata针对的是严格多重共线性的问题，但还有一类是近似（非严格）的多重共线性，这类是我们用Stata所不能直接解决的。对于多重共线性引入的问题，可参考ppt中红框内的内容。

同样，解决多重共线性我们首先要先检验多重共线性。这里我们引入了新的概念叫VIF（方差膨胀因子），我们通过判断VIF的值是否大于10，如果大于10，则认为该回归方程中存在严重的多重共线性。Stata实现的方式也十分简便。

针对多重共线性的处理方法可参考ppt，这里重点注意第三点，如果多重共线性影响到所关心变量的显著性，需要增大样本容量，剔除导致严重共线性的变量，这里的说法是不严谨的，因为在实际情况中，增大样本容量是十分不容易的，可能会消耗大量的财力物力，因此，这里我们采取更好的解决方式。

这里我们采取的解决方式叫逐步回归分析。逐步回归分析又分为两种，一种叫向前逐步回归，另一种叫向后逐步回归，在实际中，推荐使用的解决方式是向后逐步回归，两种方式各自的优缺点在ppt中已经很详细了。

在这里，给出用Stata实现逐步回归的方法。

听风起

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
1
评论
多元线性回归（二）

在之前我们曾多次提到了我们的扰动项，之前我们的扰动项都是随机产生的，但实际上，我们的扰动项也要满足一定的条件，如满足“同方差”和“无自关性”两个条件。我们经常分析的横截面数据就容易出现异方差的问题，我们后面所学到的时间序列数据就容易出现自相关的问题。这里我们简单的理解异方差，重点是如果扰动项存在异方差，假设检验将无法使用，即我们无法判断我们的回归系数是否是显著异于0的，同时OLS估计量不再是最优线性无偏估计量。那么我们应怎样解决异方差？
复制链接

扫一扫