多元线性回归分析
回归分析是数据分析中最基础也是最重要的分析工具,绝大多数的数据分析问题,都可以使用回归的思想解决
回归分析的任务:通过研究自变量X和因变量Y的相关关系(注意相关性≠因果性),尝试解释Y的形成机制,进而达到通过X去预测Y的目的
常见的五类回归分析:线性回归、0-1回归、定序回归、计数回归、生存回归
其划分依据是因变量Y的类型
X:自变量/解释变量
Y:因变量/被解释变量
数据的分类
1.横截面数据:某一时点收集的不同对象的数据 例如:
2. 时间序列数据;对同一对象在不同时间连续观察所取得的数据 例如:
3.面板数据:横截面数据与时间序列数据综合起来的一种数据资源 如:
2008-2018年,我国各省份GDP数据
针对不同数据类型的处理方法
数据收集
一.一元线性回归
与一元函数拟合几乎相同,只是概念定义格式不同
对于线性:
关于回归系数:
内生性的研究
误差项包含了所有与Y相关,但没有添加到回归模型中的变量。如果这些变量与我们已经添加的自变量相关,则存在内生性
核心解释变量和控制变量
关于回归系数的解释
对数意味着原被解释变量对解释变量的弹性,即百分比的变化而不是数值的变化
对于什么时候取变量的经验法则:
总结四类模型回归系数的解释:
虚拟变量X——特殊的自变量
当遇见一些定性变量,如性别、地域等,该如何处理?——引入虚拟变量
多分类的虚拟变量设置
含有交互式的自变量
回归实例
第一问
数据的描述性统计
所有指标的总体情况介绍
stata软件回归
对于定性变量,加入虚拟变量回归
题意分析所有变量与评价量的关系,故最终将所有变量(包括处理后的虚拟变量)一同回归
讨论:如果拟合优度R平方较低怎么办
第二问