【数学建模】回归分析

目录

1 概述

        1.1 使用目的

        1.2 类型

2 线性回归

        2.1 一元线性函数拟合

        2.2 一元线性回归模型

        2.3 解释回归系数

        2.4 内生性的探究

3 数据处理

        3.1 虚拟变量

4. 实战例题

4.1 描述性统计

4.2 虚拟变量处理

4.3 进行回归分析


1 概述

        假设有因变量Y,一组自变量X,那么要分析X与Y的相关关系,如何用一组自变量X去解释因变量Y,就可以用到回归分析。

        1.1 使用目的

        找出那些变量X与Y真的相关,哪些无关。去除不相关的X后,对X进行正负关系的判断,赋予X不同的权重(系数)。

        1.2 类型

类型模型Y举例
线性回归最小二乘法连续值变量GDP、产量

逻辑回归

逻辑回归0-1变量是否生病
定序回归泊松回归计数变量每分钟的车流量
生存回归cox等比例分享回归生存变量寿命

、回归模型的类型

数据类型
横截面数据某一时间点收集到的不同对象的数据
时间序列数据同一对象在不同时间点观察到的数据
面板数据综合横截面与时间序列的数据

数据的类型


2 线性回归

        2.1 一元线性函数拟合

        

        假设自变量X只有一个,那么拟合曲线可以设为y=kx+b,一元线性回归的目的就是求:

k和b取何值时,样本点和曲线的结果最为接近?

        我们可以用最小二乘法,设样本点(x_i,y_i),i=1,2,3......,设拟合的曲线为y=kx+b,

令拟合值 \hat{y_i}=kx_i+b,那么

\hat{k},\hat{b}=argmin(\sum_{i=1}^{n}(y_i-\hat{y_i})^2)=argmin(\sum_{i=1}^{n}(y_i-kx_i-b)^2)

令 L=\sum_{i=1}^{n}(y_i-kx_i-b)^2,通过求导的方式找到k和b,使得残差平方和 L 最小。

        2.2 一元线性回归模型

        假设x是自变量,y是因变量,且满足如下线性关系:

y_i=\beta _0+\beta_1x+\mu_i

其中\beta_0,\beta_1为线性回归系数,\mu_i无法观测的满足一定条件的扰动项。

令预测值\hat y_i = \hat \beta_0+\hat \beta_1x_i

其中\hat{\beta_0},\hat{\beta_1}=argmin(\sum_{i=1}^{n}(y_i-\hat{y_i})^2)=argmin(\sum_{i=1}^{n}(y_i-\hat\beta_1x_i-\hat\beta_0)^2)

\hat\beta_0,\hat\beta_1=argmin(\sum_{i=1}^{n}(\hat\mu)^2)

我们称 \hat \mu_i = y_i-\beta_0-\beta_1x_i为残差

注意:线性假定并不要求初始模型都呈上述的严格线性关系,自变量与因变量可通过变量替换而转化成线性模型。

        2.3 解释回归系数

        假设x为某产品品质评分(1-10之间),y为该产品的销量,我们对x和y使用一元线性回归模型,如果得到\hat y_i=3.4+2.3x,如何解释我们估计出来的回归系数?

  • 3.4:在评分为0时,该产品的平均销量为3.4
  • 2.3:评分每增加一个单位,该产品的平均销量增加2.3

        如果现在有两个自变量,x_1表示品质评分,x_2表示该产品的价格,那么我们可建立多元线性回归模型:y_i = \beta_0+\beta_1x_1+\beta_2x_2+\mu_i,如果估计出来的回归等式为:\hat y_i = 5.3+0.19x_1-1.74x_2

  • 5.3:在评分为0且价格为0时,该产品的平均销量为5.3个(没现实意义)
  • 0.19:在保持其他变量不变的情况下,评分每增加一个单位,该产品的平均销量增加0.19
  • 1.74:在保持其他变量不变的情况下,价格每增加一个单位,该产品的平均销量减少1.74

可以看到,引入了新的自变量价格后,对回归系数的影响非常大! ! ! 原因:遗漏变量导致的内生性

        2.4 内生性的探究

        假设我们的模型为:y=\beta_0+\beta_1x_1+\beta_2x2+.........+\beta_kx_k+\mu

        \mu为无法观测的且满足一定条件的扰动项,如果满足误差项u和所有的自变量x均不相关,则称该回归模型具有外生性,如果相关,则存在内生性,内生性会导致回归系数估计的不准确,不满足无偏和一致性。

        无内生性 (no endogeneity) 要求所有解释变量均与扰动项不相关。这个假定通常太强,因为实际情况下解释变量一般很复杂 (比如,因为左脚先踏入办公室导致被裁员)
是否可能弱化此条件?答案是肯定的,如果你的解释变量可以区分为
核心解释变量控制变量两类。

  • 核心解释变量: 我们最感兴趣的变量,因此我们特别希望得到对其系数的一致估计 (当样本容量无限增大时,收敛于待估计参数的真值)
  • 控制变量: 我们可能对于这些变量本身并无太大兴趣;而之所以把它们也放入回归方程,主要是为了“控制住”那些对被解释变量有影响的遗漏因素。

        在实际应用中,我们只要保证核心解释变量与\mu不相关即可。

3 数据处理

        3.1 虚拟变量

            对定类的变量,我们通常要转化为定量的形式才能进行回归分析。处理方式有哑变量、独热编码。

        例如职业因素,假设分为学生、农民、工人、公务员、其他共5个分类,其中以“其他职业”作为参照,此时需要设定4哑变量X1-X4,如下所示:

        对于有n个分类的自变量,需要产生n-1个哑变量,当所有n-1个哑变量取值都为0的时候,这就是该变量的第n类属性,即我们将这类属性作为参照,避免多重共线性的影响。

4. 实战例题

        现有某电商平台846条关于婴幼儿奶粉的销售信息,每条信息由11个指标组成。其中,评价量可以从一个侧面反映顾客对产品的关注度。请对所给数据进行以下方面的分析,要求最终的分析将不仅仅有益于商家,更有益于宝妈们为宝贝选择适合自己的奶粉。

  1. 以评价量为因变量,分析其它变量和评价量之间的关系
  2. 以评价量为因变量,研究影响评价量的重要因素。
商品名称商品毛重.kg.奶源产地国产或进口适用年龄.岁.包装单位配方分类段位团购价.元.评价量
美素1.11荷兰进口1-3岁桶装常规配方奶粉牛奶粉3段9.9683009
美素1.35荷兰进口1-3岁盒装常规配方奶粉牛奶粉3段9.9683009
惠氏1.13爱尔兰进口1-3岁桶装常规配方奶粉牛奶粉3段30605775
美素1.12荷兰进口0.5-1岁桶装常规配方奶粉牛奶粉2段28605775
诺优能0.88荷兰进口3-6岁桶装常规配方奶粉牛奶粉4段25.8605775
惠氏1.16澳洲/新西兰国产1-3岁桶装常规配方奶粉牛奶粉3段19.9605775
美赞臣1.03荷兰进口1-3岁桶装常规配方奶粉牛奶粉3段15605775
雅培1.11中国大陆国产1-3岁桶装常规配方奶粉牛奶粉3段36401183
惠氏1.13爱尔兰进口0.5-1岁桶装常规配方奶粉牛奶粉1段36401183
惠氏1.41澳洲/新西兰国产1-3岁盒装常规配方奶粉牛奶粉3段40378557
雅培1.38中国大陆国产1-3岁盒装常规配方奶粉牛奶粉3段43348286
诺优能0.98荷兰进口0-0.5岁桶装常规配方奶粉牛奶粉1段43348286
惠氏3.73澳洲/新西兰国产1-3岁盒装常规配方奶粉牛奶粉3段43.5340457

....

4.1 描述性统计

变量名样本量最大值最小值平均值标准差中位数方差峰度偏度变异系数(CV)
商品毛重.kg.8468.640.121.0510.76110.5837.1755.3890.725
评价量846683009115.25872.533330.5530.14746.2496.5064.612
团购价.元.84625989.9366.894377.091254142.9258.6662.7321.028

总体描述性结果

4.2 虚拟变量处理

注意 回归分析中的变量不用进行归一化预处理,否则量纲变化后很难描述性解释

4.3 进行回归分析

 

分析步骤

  1. 通过分析F值,分析其是否可以显著地拒绝总体回归系数为0的原假设(P<0.05),若呈显著性,表明之间存在着线性关系,至于线性关系的强弱,需要进一步进行分析。
  2. 通过R²值分析模型拟合情况,同时对VIF值进行分析,若模型呈现共线性(VIF大于10或者5,严格为10),建议使用岭回归或者逐步回归。
  3. 分析X的显著性;如果呈现出显著性(P<0.05),则用于探究X对Y的影响关系。
  4. 结合回归系数B值,对比分析X对Y的影响程度。
  5. 确定得到模型公式(Tips:使用线性回归前可以通过统计类的方法例如正态性检验等方式对数据进行验证清洗,也可以采用数据处理中异常值处理等方法对数据进行清洗。)

计算结果

线性回归分析结果 n=846
非标准化系数标准化系数tPVIF调整R²F
B标准误Beta
常数64931.439380.609-6.9220.000***-0.0920.07F=4.163 P=0.000***
C_适用年龄.岁._210785.50725495.1450.0640.4230.67220.572
C_适用年龄.岁._4-15756.81921467.539-0.086-0.7340.46312.56
C_适用年龄.岁._535562.42571144.920.0240.50.6172.044
B_国产或进口_2-11543.0786514.133-0.075-1.7720.077*1.637
C_适用年龄.岁._349588.85750931.1630.1910.9740.33135.024
E_段位_411254.55321573.5060.0610.5220.60212.34
D_配方_2-14179.14511492.528-0.021-1.2340.218-
商品毛重.kg.173.3533265.7210.0020.0530.9581.057
D_配方_3-11334.3048165.029-0.026-1.3880.165-
G_配方_2-14179.14511492.528-0.021-1.2340.218-
E_段位_3-39013.69450884.374-0.152-0.7670.44335.824
E_段位_2-13639.30725466.429-0.08-0.5360.59220.255
团购价.元.-31.2066.581-0.161-4.7420.000***1.053
F_奶源产地_9-50409.50441335.358-0.041-1.220.2231.034
F_奶源产地_8-45303.05213990.161-0.129-3.2380.001***1.438
G_配方_3-11334.3048165.029-0.026-1.3880.165-
F_奶源产地_3-22285.12910251.532-0.104-2.1740.030**2.083
F_奶源产地_7-29544.09750345.559-0.02-0.5870.5571.024
F_奶源产地_6-41077.9388676.058-0.271-4.7350.000***2.972
F_奶源产地_4-30253.2569745.963-0.185-3.1040.002***3.229
F_奶源产地_24685.20714519.0090.0120.3230.7471.314
F_奶源产地_5-13386.45516493.195-0.033-0.8120.4171.491
因变量:评价量
注:***、**、*分别代表1%、5%、10%的显著性水平

        线性回归模型要求总体回归系数不为0,即变量之间存在回归关系。首先根据F检验结果对模型进行检验。

        联合显著性检验:F=4.163,P=0.000,水平上呈现显著性,拒绝回归系数为0的原假设,因此模型基本满足要求。

 拟合优度R^2较低怎么办:
(1) 回归分为解释型回归和预测型回归。预测型回归一般才会更看重R2解释型回归更多的关注模型整体显著性以及自变量的统计显著性和经济意义显著性即可。
(2) 可以对模型进行调整,例如对数据取对数或者亚方后再进行回归。
(3) 数据中可能有存在异常值或者数据的分布极度不均匀。

标准回归化系数:

        对数据进行标准化,就是将原始数据减去它的均数后,再除以该变量的标准差,计算得到新的变量值,新变量构成的回归方程称为标准化回归方程,回归后相应可得到标准化回归系数。标准化系数的绝对值越大,说明对因变量的影响就越大 (只关注显薯的回归系数)

多重共线性的影响:

方差膨胀因子 VIF的计算方式:

VIF_m = \frac{1}{1-R^2_{1-k/m}}

其中 R^2_{1-k/m}是将第m个变量作为因变量,对剩下k-1个自变量回归得到的拟合度。

VIF_m越大,说明第m个变量和其他的变量相关性越大,假如某变量的VIF>10,说明该回归方程存在严重的多重共线性。

多重共线性处理方法:
如果发现存在多重共线性,可以采取以下处理方法。
(1)如果不关心具体的回归系数,而只关心整个方程预测被解释变量的能力,则通常可以 不必理会多重共线性(假设你的整个方程是显著的)。这是因为,多重共线性的主要后果是使得对单个变量的贡献估计不准,但所有变量的整体效应仍可以较准确地估计。
(2)如果关心具体的回归系数,但多重共线性并不影响所关心变量的显著性,那么也可以不必理会。即使在有方差膨胀的情况下,这些系数依然显著;如果没有多重共线性,则只会更加显著。
(3) 如果多重共线性影响到所关心变量的显著性,则需要增大样本容量,剔除导致严重共线性的变量(不要轻易删除哦,因为可能会有内生性的影响),或对模型设定进行修改。
 

        

拟合效果图

  • 0
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
非线性回归分析是一种用于建立非线性关系的回归模型的方法。在数学建模中,非线性回归分析可以用来描述解释变量和被解释变量之间的非线性关系。与一元线性回归不同,非线性回归可以包含多个解释变量和多个回归系数。 在进行非线性回归分析时,一般需要先确定适合的非线性回归模型。这可以通过绘制数据点的散点图,并观察其形状来确定。根据散点图的形状,可以选择适合的非线性回归模型进行分析。常见的非线性回归模型包括指数模型、对数模型、幂函数模型等。 在MATLAB中,可以使用相关的函数和工具箱来进行非线性回归分析。通过输入解释变量和被解释变量的数据,以及选择适合的非线性回归模型,MATLAB可以计算出最优的回归系数,并进行模型的拟合和检验。 总之,非线性回归分析是一种用于建立非线性关系的回归模型的方法,在数学建模中可以用来描述解释变量和被解释变量之间的非线性关系。在进行非线性回归分析时,需要选择适合的非线性回归模型,并使用相应的工具进行计算和分析。 #### 引用[.reference_title] - *1* *2* [菜鸟的数学建模之路(二):线性与非线性回归](https://blog.csdn.net/qq_40298902/article/details/100663817)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item] - *3* [数学建模之多元非线性回归](https://blog.csdn.net/JxufeCarol/article/details/100144673)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值