回归分析是数据分析中最基础也是最重要的分析工具,绝大多数的数据分析问题,都可以使用回归的思想来解决。回归分析的任务就是,通过研究自变量X和因变量Y的相关关系,尝试去解释Y的形成机制,进而达到通过X去预测Y的目的
常见的回归分析有五类: 线性回归、 0‐1回归、定序回归、计数回归和生存回归,其划分的依据是因变量 Y的类型
一、基本概念
1.相关性
相关性表示X与Y的关联关系,相关性并不等同于因果性
2.因变量Y
经济学家研究经济增长的决定因素,那么Y可以选取GDP增长率(连续数值型变量)。
P2P公司要研究借款人是否能按时还款,那么Y可以设计成一个二值变量, Y=0时代表可以还款, Y=1时代表不能还款(0‐1型变量)。
消费者调查得到的数据(1表示非常不喜欢, 2表示有点不喜欢, 3表示一般般, 4表示有点喜欢, 5表示非常喜欢) (定序变量)。
理学中RFM模型: F代表一定时间内,客户到访的次数,次数其实就是一个非负的整数。 (计数变量)
研究产品寿命、企业寿命甚至是人的寿命(这种数据往往不能精确的观测,例如现在要研究吸烟对于寿命的影响,如果选取的样本中老王60岁,现在还活的非常好,我们不可能等到他去世了再做研究,那怎么办呢?直接记他的寿命为60+,那这种数据就是截断的数据) (生存变量)
3.自变量X
Y是因变量(因为别人的改变,而改变的变量)。而X是用来解释Y的相关变量,所以X被称为自变量。当然,另一套定义方法是: X为解释变量, Y为被解释变量
4.回归分析的目的
识别重要变量——回归分析要去识别并判断: 哪些X变量是同Y真的相关,哪些不是。统计学中有一个非常重要的领域,叫做“变量选择”。(逐步回归法)
判断相关性的方向——去除了那些同Y不相关的X变量,那么剩下的,就都是重要的、有用的X变量了。 接下来回归分析要回答的问题是:这些有用的X变量同Y的相关关系是正的呢,还是负的?
估计权重(回归系数)——在确定了重要的X变量的前提下,我们还想赋予不同X不同的权重,也就是不同的回归系数,进而我们可以知道不同变量之间的相对重要性。
5.回归分析的分类
类型 | 模型 | Y的特点 | 例子 |
线性回归 | OLS、 GLS(最小二乘) | 连续数值型变量 | GDP、产量、收入 |
0‐1回归 | logistic回归 | 二值变量(0‐1) | 是否违约、是否得病 |
定序回归 | probit定序回归 | 定序变量 | 等级评定(优良差) |
计数回归 | 泊松回归(泊松分布) | 计数变量 | 每分钟车流量 |
生存回归 | Cox等比例风险回归 | 生存变量(截断数据) | 企业、产品的寿命 |
6.数据的分类
横截面数据——在某一时点收集的不同对象的数据。例如,全国各省份2018年GDP的数据或者大一新生今年体测的得到的数据。
时间序列数据——对同一对象在不同时间连续观察所取得的数据。例如中国历年来GDP的数据。
面板数据——横截面数据与时间序列数据综合起来的一种数据资源。例如,2008‐2018年,我国各省份GDP的数据。
不同类型的数据处理方法如下
数据类型 | 常见建模方法 |
横截面数据 | 多元线性回归 |
时间序列数据 | 移动平均、指数平滑、 ARIMA、 GARCH、 VAR、协积 |
面板数据 | 固定效应和随机效应、静态面板和动态面板 |
建模比赛中,前两种数据类型最常考到;面板数据较为复杂,是经管类学生在中级计量经济学中才会学到的模型。
横截面数据往往可以使用回归来进行建模,我们通过回归可以得到自变量与因变量之间的相关关系以及自变量的重要程度。
时间序列数据往往需要进行我们进行预测,时间序列模型的选择也很多,大家需要选择合适的模型对数据进行建模
二、线性回归
1.基本概念
2.内生性
3.核心解释变量和控制变量
核心解释变量: 我们最感兴趣的变量,因此我们特别希望得到对其系数的一致估计(当样本容量无限增大时,收敛于待估计参数的真值 )。
控制变量: 我们可能对于这些变量本身并无太大兴趣;而之所以把它们也放入回归方程,主要是为了 “控制住” 那些对被解释变量有影响的遗漏因素。
在实际应用中,我们只要保证核心解释变量与𝝁不相关即可
4.回归系数
5.自变量取对数
取对数的情况:
与市场价值相关的,例如,价格、销售额、工资等都可以取对数;
以年度量的变量,如受教育年限、工作经历等通常不取对数;
比例变量,如失业率、参与率等,两者均可;
变量取值必须是非负数,如果包含0,则可以对y取对数ln(1+y);
取对数的好处:
减弱数据的异方差性
如果变量本身不符合正态分布,取了对数后可能渐近服从正态分布
模型形式的需要,让模型具有经济学意义
6.四类模型回归系数的解释
7.特殊的自变量:虚拟变量X
目的:处理自变量中有定性变量,例如性别、地域等
含有交互项的自变量:
三、逐步回归分析
向前逐步回归Forward selection: 将自变量逐个引入模型,每引入一个自变量后都要进行检验,显著时才加入回归模型。(缺点:随着以后其他自变量的引入,原来显著的自变量也可能又变为不显著了,但是,并没有将其及时从回归方程中剔除掉。 )
向后逐步回归Backward elimination: 与向前逐步回归相反,先将所有变量均放入模型,之后尝试将其中一个自变量从模型中剔除,看整个模型解释因变量的变异是否有显著变化,之后将最没有解释力的那个自变量剔除;此过程不断迭代,直到没有自变量符合剔除的条件。(缺点:一开始把全部变量都引入回归方程,这样计算量比较大。若对一些不重要的变量,一开始就不引入,这样就可以减少一些计算。当然这个缺点随着现在计算机的能力的提升,已经变得不算问题了)