stata regress 多变量回归 regression结果分析

由于之前上课的时候用过stata感觉用stata做分析的时候交互什么的体验其实很好,这次要做一个回归分析,发现之前学过的很多都不太记得了,就打算写一个博客作为备忘。

0. stata documentation

https://www.stata.com/manuals/icombinedsubjecttableofcontents.pdf
stata的documentation做得很好,这个是一个类似目录的pdf,点进去就会跳到另一个详细说明的pdf了,还有其他的example什么的

1. stata 导入 excel 文件

cd C:\Users\虫\Dropbox\Fitts\pilotVersions\pilot5\DataAnalysis\excelSamples 
clear 
import excel allPaperSample.xlsx, firstrow 

第一步,先设置操作文件夹,cd到要导入excel 文件的文件夹。
第二步,清除所有变量。如果当前窗口还有variable的话,excel会导入失败。
第三步,导入excel文件,文件名字是“allPaperSample.xlsx”, firstrow在这边的意思是要把第一行作为变量名

2. stata 生成新变量

https://www.stata.com/manuals13/gsm11.pdf
stata一般有generate 和replace两种方式生成新变量。
generate就是生成一个新的变量
replace就是用这个新的变量替换掉原来的变量

generate logMT = log10(MT)

以上就是以现有变量MT,生成一个新变量logMT。

3. stata 查看基本信息

查看某个变量的基本信息

codebook variableName

查看所有变量的基本信息

codebook

4. stata 多变量回归

这个是stata regress函数的说明文件:
https://www.stata.com/manuals13/rregress.pdf

regress errors subID timeDay timeDir timeOrder vCon W D 

regress后面的第一个变量:errors 是要回归的目标,之后所有的变量都是模型中的predictors。
随便给一个回归的结果:
这里写图片描述

图中左上角

图中左上角的是对于regress后得到的model 的一个“analysis-of-variance(ANOVA)”表格。
其每一列的头:SS , df , MS 分别对应:“sum of squares”, “degrees of freedom”和“mean square”。
第一列:可以知道Model的SS(1808)/Total的SS(8001)=R-squared(0.2261)即R2。R2的意思就是说,这个模型说明解释了这些变量中多少的variance。

第二列:自由度,一共有N个sample这个数据集就有(N-1)个dof(因为要减去均值)。模型的自由度由模型有几个predictor决定。

第三列:MS一般是用于计算F-statistic的。

图中的右上角

图中的右上角是另一些统计描述:
第一行:Number of obs 一共有多少个sample

第二行:F(df of Model,df of Residual) = MS of Model(301.448)/MS of Residual(6.934) = 43.47
The F statistic tests the hypothesis that all coefficients excluding the constant are zero.
这个F值的H0假设是:所有的predictor都不对y产生影响,即所有predictor的coef都会是0,所有的predictor都不significant。

第三行:Prob > F 的值是上述的H0假设的成立的可能性。当其趋近于0的时候,说明至少会有一些predictor的coef不为0.

第四行:R-squared 前面已经说过了

第五行:Adj R-squared 由于R2存在一个问题:无论什么predictor加到模型中,R2都会变大。为了避免这个问题,adjR2惩罚了模型的复杂度。

第六行:root mean squared error是MS of Redidual的平方根(2.6333 = 6.9342^0.5),其意义是回归模型的residual部分的standard deviatio。

图中下面

图中下面的部分就是regression的结果了。
最后一行是模型的常数项

第一列是模型的系数,根据系数我们就可以写出回归的线性模型了

第二列是线性回归系数的standard error
查了半天没看到这个参数具体是怎么计算的。不过这个系数是对前面coef的估计的可信度估计,越小越好。
有一个百度的答案:
https://zhidao.baidu.com/question/501609456486160404.html
这是估计的标准误差,是残差均方开根号的值,残差均方等于残差平方和除以自由度,残差平方和等于总平方和减去回归平方和
不过不知道里面说的残差是怎么计算的。

第三列是t-statisitic
正常T-statistic应该在0假设(null hypothesis)为真时,服从T分布(T-distribution).
粗略地讲这个值大于2,对应的predictor就是significant。
Coefficient除以standard error 等于 t-statistic

第四列是这个t-statistic的p-value,一般来讲小于0.05就是significant的

第五六列是95%confidence interval of coef,系数的95%置信区间。

  • 62
    点赞
  • 371
    收藏
    觉得还不错? 一键收藏
  • 4
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值