一、回归的基本理解
(1)回归的基本任务
回归分析是数据分析中最基础也是最重要的分析工具,它通过研究自变量X和因变量Y的相关关系,尝试去解释Y的形成机制,进而达到通过X去预测Y的目的。
(2)回归里的关键词
这里涉及到三个重要的关键词:相关性、自变量X、因变量Y
同时需要注意的是相关性与因果性的区别:
我们使用回归分析的结果只是一个相关性的答案,并不是因果关系。在绝大多数情况下,我们没有能力去探究两件事之间发生的严格因果关系、不能很绝对的说这件事的发生是因为这件事导致的,所以我们只能退而求其次,改成通过回归分析,去研究两者的相关关系,也就是说这件事的发生和另外一件事有关联。
因变量Y
因变量Y就是我们研究的核心变量,因变量Y一般可以分为以下几种数据类型
- 连续数值型变量:经济学家研究经济增长的决定因素,那么这个因变量Y可以选择GDP增长率
- 0-1型变量:P2P公司要研究借款人是否能按时还款,那么因变量Y可以涉及成一个二值变量,Y=0表示可以还款,Y=1表示不能还款
- 定序变量:在网店的评价等级,一星表示非常差劲,二星表示一般,三星表示合格,四星表示还可以,五行表示很满意
- 计数变量:在管理学FRM模型中,F代表一定时间内,客户到访的次数,次数其实就是一个非负的整数
- 生存变量:研究某个产品的使用寿命、企业寿命、人的寿命,这类型数据往往不能精确的观测到,例如需要研究吸烟对于寿命的影响,那么样本中的老王60岁,那么他的寿命就可以记为60+
自变量X
X是解释Y的相关变量,Y为被解释变量,即X为解释变量、Y为被解释变量。
通过以上的分析,回归的分析的任务就是完成3个任务:
- 选择(识别)重要的变量:哪些变量是真的同Y相关,哪些不是
- 判断相关性的方向:就是X变量通Y变量的相关性为正相关还是负相关
- 估计权重:赋予不同的自变量X不同的权重,通过回归后的系数,得出不同变量之间的相对重要性
(3)回归里的数据类型
- 横截面数据:在某一时间点收集的不同对象的数据;例如:发放的调查问卷、全国个省份2018年的GDP数据
- 时间序列数据:对同一对象在不同时间连续观察所取得的数据;例如:从出生到现在你的身高数据,中国历年来的GDP数据
- 面板数据:横截面数据与时间序列数据综合起来的一种数据资源;例如2008-2018年我国个省份的GDP数据
针对与不同的数据会使用不同的解决和处理方法
在这我们仅讨论横截面数据的处理,即多元线性回归。
(4)回归方程中的系数解释
主要分为四类模型的回归系数解释:
-
一元线性回归
-
双对数模型
-
半对数模型(对自变量)
-
半对数模型(对因变量)
这里会涉及一个解释变量取对数的情况:
什么时候取对数?
(5)扰动项要满足的条件
一般我们设计的线性回归方程长这样:
在回归中需要扰动项是球形扰动,球形扰动就是要求满足”同方差“和”无自相关“两个条件。
条件一:同方差:
即对于任意的i j,当i=j时,他们的协方差相等。
条件二:无自相关
扰动项和回归里的解释变量没有相关性。
PS:
- 横截面数据容易出现异方差问题
- 时间序列数据容易出现自相关问题