1.因变量的分类
回归分析 三个重要作用:
数据分类
1.横截面数据:
同一时间段内 不同对象的数据
2.时间序列数据
同一对象不同时间内的数据
3.面板数据
横截面数据和时间序列数据的组合
一元线性回归模型
β是为了标新立异,和k、b无疑,u是扰动项
变量的内生性
无偏性:估计量的期望值等于真实值
一致性:估计值能依照概率收敛到真实值
若ui:
写论文时要强调 哪个是核心解释变量 哪个是控制变量
回归系数的解释:
取对数的经验法则:
四种常见回归模型
注:定性变量的理
STATA的使用方法:
stata的代码导出方法:
定量数据:
summarize 某某
定性数据:
tabulate函数
注:CUM是累计频率,gen是生成虚拟变量
stata的回归
注意最后用adj Rsquared 即调整后R方判断合理性
cons:β0
coef:就是各个系数,为βhaike(预测值)
特别注意:
此处应该验证的是β0本身是否为0,而不是β0haike(预测值)为0
假设显著异于0
根据P的值确定假设正确与否
回归结果保存在word里面:
关于拟合优度R2的问题
标准回归(加上β)
例:
看下表中显著不为0的自变量,即P小于0.1的
就俩,找β绝对值大的,这里是团购价(0.154075)
总体思路
看Prob,建模是否合理
求相关系数
确定定量的变量
确定定性变量
整体回归,找到不用的定量变量
找到显著的变量
标准化和非标准化的差别
不要对数据归一化!!!!!!!!!!!!!!!!!!!
例:
对以上数据进行描述性统计(excel和stata都可以)
根据分析,内蒙古的借款成功率最低,但是内蒙古的违约率不是最低的,因此可能存在地域歧视问题,之后进行进一步分析
test:检验原假设是否成立
若扰动项存在异方差:
解决方法:
怀特检验(推荐)
稳健误差:
多重共线性
若vif>10 存在多重共线性问题
解决方案:
① 删除变量(不推荐)
② 逐步回归