清风数模课---多元回归分析

回归分析是数据分析的核心工具,用于理解自变量与因变量之间的关系并进行预测。它包括线性回归、逻辑回归等多种模型,适用于连续数值、二值、定序和计数数据。回归分析关注相关性、变量重要性、权重估计,并处理内生性问题。线性回归中,对数转换能减弱异方差性和改善模型拟合。对于定性变量,采用虚拟变量处理。逐步回归分析则用于变量筛选。在实际应用中,需注意逐步回归的局限性,并确保模型的经济意义。
摘要由CSDN通过智能技术生成
  1. 使用情况

    回归分析是数据分析中最基础也是最重要的分析工具,绝大多数的 数据分析问题,都可以使用回归的思想来解决。回归分析的任务就是, 通过研究自变量X和因变量Y的相关关系,尝试去解释Y的形成机制,进 而达到通过X去预测Y的目的。

  2. 回归分析关键

    • 相关性 相关性不等于因果(eg:冰淇淋卖的越多,游泳死亡人数越多)

    • Y :  又称因变量 (在实际应用中,Y常常是我们需要研究的那个核心变量。)

    • X :  又称因变量  (X为解释变量,Y为被解释变量。)
  3. 回归分析的使命

    1. 识别重要变量

    2. 判断相关性的方向

    3. 要估计权重(回归系数)

  4. 回归分类

    类型模型Y的特点例子
    线性回归OLS、GLS(最小二乘)连续数值型变量GDP、产量、收入
    0‐1回归logistic回归二值变量(0‐1)是否违约、是否得病
    定序回归probit定序回归定序变量等级评定(优良差)
    计数回归泊松回归(泊松分布)计数变量每分钟车流量
    生存回归Cox等比例风险回归生存变量(截断数据)企业、产品的寿命
  5. 数据的分类

    上面的数据多半都是宏观数据,微观数据市面上很少 大家可以在人大经济论坛搜索

    1. 横截面数据:在某一时点收集的不同对象的数据。

      建模方法:多元线性回归

      • 我们自己发放问卷得到的数据

      • 全国各省份2018年GDP的数据

      • 大一新生今年体测的得到的数据

    2. 时间序列数据:对同一对象在不同时间连续观察所取得的数据。

      建模方法:移动平均、指数平滑、ARIMA、GARCH、VAR、协积

      • 从出生到现在,你的体重的数据(每年生日称一次)。

      • 中国历年来GDP的数据。

      • 在某地方每隔一小时测得的温度数据。

    3. 面板数据:横截面数据与时间序列数据综合起来的一种数据资源。

      建模方法:固定效应和随机效应、静态面板和动态面板

      • 2008‐2018年,我国各省份GDP的数据。

  6. 线性回归

    • 注: 线性要求为自变量和因变量通过变量替换后转化成线性模型

    1. 引入了新的自变量后,对回归系数的影响非常大,原因:遗漏变量导致的内生性

      1. 设我们的模型为:
        y = \beta_0 + \beta_1x_1+\beta_2x_2+...+\beta_kx_k + \mu \qquad \mu为无法观测且满足一定条件的扰动项 ,如果满足误差项\mu和所有的自变量x均不相关,则称该模型具有外生性

      2. 内生性的蒙特卡罗模拟

        当分析中缺少了一个自变量时,该自变量与因变量的相关系数越大,内生性越大

      3. 由于彻底无内生性要求太高,故一般只需要弱化"控制变量"即可;在实际应用中,我们只要保证核心解释变量与𝝁不相关即可。

        1. 核心解释变量:我们最感兴趣的变量,因此我们特别希望得到对其系数的 一致估计(当样本容量无限增大时,收敛于待估计参数的真值 )。

        2. 控制变量:我们可能对于这些变量本身并无太大兴趣;而之所以把它们也 放入回归方程,主要是为了 “控制住” 那些对被解释变量有影响的遗漏因素。

  7. 关于线性方程中取对数的情况

    1. 经验

      • 与市场价值相关的,例如,价格、销售额、工资等

      • 以年度量的变量,如受教育年限、工作经历等通常不取对数;

      • 比例变量,如失业率、参与率等,两者均可;

      • 变量取值必须是非负数,如果包含0,则可以对y取对数ln(1+y);

    2. 优点:

      1. 减弱数据的异方差性

      2. 如果变量本身不符合正态分布,取 了对数后可能渐近服从正态分布

      3. 模型形式的需要,让模型具有经济学意义。

    3. 四类模型回归系数

      1. 一元线性回归:𝑦 = 𝑎 + 𝑏𝑥 + 𝜇,x每增加1个单位,y平均变化b个单位;

      2. 双对数模型:𝑙𝑛𝑦 = 𝑎 + 𝑏𝑙𝑛𝑥 + 𝜇,x每增加1%,y平均变化b%;

      3. 半对数模型:𝑦 = 𝑎 + 𝑏𝑙𝑛𝑥 + 𝜇,x每增加1%,y平均变化b/100个单位;

      4. 半对数模型:𝑙𝑛𝑦 = 𝑎 + 𝑏𝑥 + 𝜇,x每增加1个单位,y平均变化(100b)%。

  8. 自变量中有定性变量,例如性别、地域等,在回归中的处理

    1. 设置一 一对应的值对应该变量<虚拟变量>,进行计算相关系数,在其他自变量一致的情况下,代入不同的最开始设定的值,求得结果相减即可

    2. 多分类

      • 为了避免完全多重共线性的影响,引入虚拟变量的个数一般是分类数减1。

      • 此时分析数据可用Stata

  9. 标准化回归系数

    1. 为了更为精准的研究影响评价量的重要因素(去除量纲的影响), 我们可考虑使用标准化回归系数。

    2. 对数据进行标准化,就是将原始数据减去它的均数后,再除以该变 量的标准差,计算得到新的变量值,新变量构成的回归方程称为标准化 回归方程,回归后相应可得到标准化回归系数。

    3. 标准化系数的绝对值越大,说明对因变量的影响就越大(只关注显 著的回归系数哦)。

    4. Stata标准化回归命令

       regress y x1 x2 … xk,beta  /*regress 评价量*/
  10. 逐步回归分析

    1. 向前逐步回归Forward selection:将自变量逐个引入模型,每引入一个自变量 后都要进行检验,显著时才加入回归模型。 (缺点:随着以后其他自变量的引入,原来显著的自变量也可能又变为不显著了, 但是,并没有将其及时从回归方程中剔除掉。)

    2. 向后逐步回归Backward elimination:与向前逐步回归相反,先将所有变量均 放入模型,之后尝试将其中一个自变量从模型中剔除,看整个模型解释因变量的 变异是否有显著变化,之后将最没有解释力的那个自变量剔除;此过程不断迭代, 直到没有自变量符合剔除的条件。(缺点:一开始把全部变量都引入回归方程, 这样计算量比较大。若对一些不重要的变量,一开始就不引入,这样就可以减少 一些计算。当然这个缺点随着现在计算机的能力的提升,已经变得不算问题了)

    3. Stata实现逐步回归法

      1. 向前逐步回归Forward selection:

        stepwise regress y x1 x2 … xk, pe(#1)

        pe(#1) specifies the significance level for addition to the model; terms with p<#1 are eligible for addition(显著才加入模型中)

      • 向后逐步回归Backward elimination:

        stepwise regress y x1 x2 … xk, pr(#2) pr(#2)

        specifies the significance level for removal from the model; terms with p>= #2 are eligible for removal(不显著就剔除出模型).

      1. 如果你觉得筛选后的变量仍很多,你可以减小#1或者#2

        如果你觉得筛选后的变量太少了,你可以增加#1或者#2

      2. 注:

        1. 可以在后面再加参数b和r,即标准化回归系数或稳健标准误

        2. x1 x2 … xk之间不能有完全多重共线性(和regress不同哦)

    4. 逐步回归的说明

      1. 向前逐步回归和向后逐步回归的结果可能不同。

      2. 不要轻易使用逐步回归分析,因为剔除了自变量后很有可能会产生新的问 题,例如内生性问题。

      3. 更好的是每种情况都尝试一次,最终一共有C_K^1+C_K^2+...+C_K^K = 2^K-1种可能。如果自变量很多,那么计算相当费时。
         

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值