【数学建模】-多元线性回归分析

最新推荐文章于 2024-07-28 13:33:18 发布

勤奋努力的野指针

最新推荐文章于 2024-07-28 13:33:18 发布

阅读量9.1k

点赞数 11

分类专栏：数学建模文章标签：线性回归回归机器学习 matlab

本文链接：https://blog.csdn.net/SUOLONG1/article/details/124775550

版权

本文探讨了多元线性回归分析，包括回归的思想、相关性与因果性的区别、自变量和因变量的选择。回归分析旨在识别重要变量、判断相关性方向并估计权重。介绍了数据的横截面、时间序列和面板数据类型，以及一元线性回归中的线性理解、回归系数解释和内生性问题。同时，讨论了何时对变量取对数的决策，并提供了一个电商平台婴幼儿奶粉销售数据的回归分析实例。

摘要由CSDN通过智能技术生成

文章目录

学习来源：清风老师
回归分析的任务就是，通过研究 自变量X和因变量Y的相关关系，尝试去解释Y的形成机制，进而达到通过X去 预测Y的目的。
常见的回归分析有五类： 线性回归、0‐1回归、定序回归、计数回归和生存回归，其划分的依据是因变量Y的类型。

回归的思想

回归分析：研究X和Y之间相关性的分析。

因变量Y

经济学家研究经济增长的决定因素，那么Y可以选取GDP增长率（连续数值型变量）。
P2P公司要研究借款人是否能按时还款，那么Y可以设计成一个二值变量，Y=0时代表可以还款，Y=1时代表不能还款（0‐1型变量）。
消费者调查得到的数据（1表示非常不喜欢，2表示有点不喜欢，3表示一般般，4表示有点喜欢，5表示非常喜欢）（定序变量）。
管理学中RFM模型：F代表一定时间内，客户到访的次数，次数其实就是一个非负的整数。（计数变量）
研究产品寿命、企业寿命甚至是人的寿命（这种数据往往不能精确的观测，例如现在要研究吸烟对于寿命的影响，如果选取的样本中老王60岁，
现在还活的非常好，我们不可能等到他去世了再做研究，那怎么办呢？直接记他的寿命为60+，那这种数据就是截断的数据）（生存变量）

自变量X

回归分析的任务就是，通过研究X和Y的相关关系，尝试去解释Y的形成机制，进而达到通过X去预测Y的目的。

回归分析的使命

使命1：回归分析要去识别并判断：哪些X变量是同Y真的相关，哪些不是。统计学中有一个非常重要的领域，叫做“变量选择”。（逐步回归法）
使命2：去除了那些同Y不相关的X变量，那么剩下的，就都是重要的、有用的X变量了。接下来回归分析要回答的问题是：这些有用的X变量同Y的相关关系是正的呢，还是负的？
使命3：在确定了重要的X变量的前提下，我们还想赋予不同X不同的权重，也就是不同的回归系数，进而我们可以知道不同变量之间的相对重要性。
第一、识别重要变量；
第二、判断相关性的方向；
第三、要估计权重（回归系数）。

回归分析的分类

在这里插入图片描述

数据的分类

横截面数据：在某一时点收集的不同对象的数据。
例如：
（1）我们自己发放问卷得到的数据
（2）全国各省份2018年GDP的数据
（3）大一新生今年体测的得到的数据
时间序列数据：对同一对象在不同时间连续观察所取得的数据
例如：
（1）从出生到现在，你的体重的数据（每年生日称一次)。
（2）中国历年来GDP的数据。
（3）在某地方每隔一小时测得的温度数据。
面板数据：横截面数据与时间序列数据综合起来的一种数据资源。
例如：
2008‐2018年，我国各省份GDP的数据。
在这里插入图片描述
数据的收集

一元线性回归

在这里插入图片描述

对于线性的理解

在这里插入图片描述

回归系数的解释

在这里插入图片描述

内生性的探究

在这里插入图片描述

包含了所有与y相关，但未添加到回归模型中的变量
如果这些变量和我们已经添加的自变量相关，则存在内生性

内生性的蒙特卡罗模拟

在这里插入图片描述

%% 蒙特卡洛模拟：内生性会造成回归系数的巨大误差
times = 300;  % 蒙特卡洛的次数
R = zeros(times,1);  % 用来储存扰动项u和x1的相关系数
K = zeros(times,1);  % 用来储存遗漏了x2之后，只用y对x1回归得到的回归系数
for i = 1: times
    n = 30;  % 样本数据量为n
    x1 = -