多元回归分析（线性回归）

最新推荐文章于 2023-09-10 14:13:41 发布

ōu yǐng

最新推荐文章于 2023-09-10 14:13:41 发布

阅读量2.8w

点赞数 34

分类专栏：数模笔记文章标签：统计学

本文链接：https://blog.csdn.net/oy_1024/article/details/107958771

版权

本文深入探讨了回归分析的基础，包括回归任务、关键概念、数据类型和模型解释。通过实例解析电商平台奶粉销售和P2P网络贷款中的地域歧视问题，强调了回归分析中的异方差性、多重共线性及其检验与解决方法。此外，还讨论了虚拟变量的使用以及变量筛选的逐步回归策略。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、回归的基本理解

（1）回归的基本任务

回归分析是数据分析中最基础也是最重要的分析工具，它通过研究自变量X和因变量Y的相关关系，尝试去解释Y的形成机制，进而达到通过X去预测Y的目的。

（2）回归里的关键词

这里涉及到三个重要的关键词：相关性、自变量X、因变量Y
同时需要注意的是相关性与因果性的区别：
我们使用回归分析的结果只是一个相关性的答案，并不是因果关系。在绝大多数情况下，我们没有能力去探究两件事之间发生的严格因果关系、不能很绝对的说这件事的发生是因为这件事导致的，所以我们只能退而求其次，改成通过回归分析，去研究两者的相关关系，也就是说这件事的发生和另外一件事有关联。

因变量Y
因变量Y就是我们研究的核心变量，因变量Y一般可以分为以下几种数据类型

连续数值型变量：经济学家研究经济增长的决定因素，那么这个因变量Y可以选择GDP增长率
0-1型变量：P2P公司要研究借款人是否能按时还款，那么因变量Y可以涉及成一个二值变量，Y=0表示可以还款，Y=1表示不能还款
定序变量：在网店的评价等级，一星表示非常差劲，二星表示一般，三星表示合格，四星表示还可以，五行表示很满意
计数变量：在管理学FRM模型中，F代表一定时间内，客户到访的次数，次数其实就是一个非负的整数
生存变量：研究某个产品的使用寿命、企业寿命、人的寿命，这类型数据往往不能精确的观测到，例如需要研究吸烟对于寿命的影响，那么样本中的老王60岁，那么他的寿命就可以记为60+

自变量X
X是解释Y的相关变量，Y为被解释变量，即X为解释变量、Y为被解释变量。

通过以上的分析，回归的分析的任务就是完成3个任务：