一、stata介绍
1.简介
Stata统计软件是目前世界上最著名的统计软件之一,国外将Stata与SAS、SPSS一起并称为三大权威软件。它是一套提供其使用者数据分析、数据管理以及绘制专业图表的完整及整合性统计软件。Stata具有很强的统计功能,除了传统的统计分析方法外,还收集了近20年发展起来的新方法,其作图模块包括直方图、条形图、百分条图、百分圆图、散点图、散点图矩阵、星形图和分位数图,图形精美,能满足绝大多数用户的需要。
2.主要功能
stata的主要功能:数据管理、统计功能、作图功能、矩阵运算,程序设计。
二、stata软件操作页面介绍——五大窗口
①:Review(历史窗口):此窗口记录自启动stata以来执行过的命令
②:Results(结果窗口):此窗口显示执行stata命令后的输出结果
③:Command(命令窗口):在此窗口输入想要执行的stata命令
④:Variables(变量窗口):此窗口记录着目前stata内存中的所有变量
⑤:Properties(性质窗口):此窗口显示当前数据文件与变量的性质
为了使屏幕分割更美观实用且符合个人使用习惯,以上各窗口均可任意调整大小和位置。可通过菜单“Edit”→“Preferences”→“General Preferences”→“Windowing”→“Lock splitter”锁定当前画面,后续重启stata时自动显示设置后的画面比例。
三、操作流程(以探究城市空气质量的影响因素为例——多元线性回归分析)
多元线性回归分析:研究多个自变量是如何直接影响一个因变量的数据分析方法。
1.数据方面
-
获取分析所需的各项数据,确定自变量(Xn)和因变量(Y)
Y:空气质量 X1:gdp X2:二氧化碳 X3:森林覆盖率 X4:人口
-
多元线性回归方程为Y=aX1+bX2+cX3+dX4+e(e为常数)
2.stata系统操作
-
打开stata,点击Data Editor(Edit)导入数据(表头要输入到表头栏,不能粘贴到表格中),并修改表头的Name和Label(Name为自变量和因变量,只能为英文和数字;Label为对应标签,进行数据说明)
-
关闭数据导入窗口,可在右侧“Variables”窗口中看到已导入的变量
-
Command处输入命令进行回归分析,函数为”regress 因变量 自变量1 自变量2 自变量3…,简写为reg y x1 x2 x3…
-
回车发送得到回归结果
- 得到回归方程,对结果进行回归分析
-
-
回归方程:y=12.1210x1-0.3514x2+1.3683x3-0.0094x4-1055.866(Coef.为各变量系数,即自变量每变化一个单位对因变量的影响程度。如x1美增加一个单位,y就增加12.1210个单位。)
-
简单分析:x1、x3与y呈正相关(y随x1、x3的增长而增长),x2、x4与y呈负相关(y随x2、x4的增长而降低)。
-
深入分析:(根据以上重点分析指标)
-
Number of Obs:样本容量,即一共有多少组分析数据
-
F值:F值检验,检验数据模型中的参数是否显著不为零。根据F值判断该组模型在多大的置信度下显著成立。
-
Prob:P值(t检验的指标),P值小于0.05表示该组自变量对因变量解释性很强,选取的变量是有效的。P值越小,显著性越高。(该案例中P=0.0005,远小于0.05,因此说明选取的该组自变量是有效的。同时,根据下侧x1-x4的详细数据可得,x3和x4在四个自变量中显著性最高,其次是x1)
-
R2:可决系数,范围为0≤R2≤1。可决系数越接近于1,证明该组数据分析的拟合优度越高,自变量与因变量的关系越密切。(该案例中R2=0.5275,远比1小,说明虽然选择的四个自变量有效,但组合来看与空气质量的拟合优度却不高,此种情况下,应该调整不同的自变量组合以达到理想的分析结果)
-
0≤R2<0.3,极低度相关
-
0.3≤R2<0.5,低度相关
-
0.5≤R2<0.8,中度相关
-
0.8≤R2≤1,高度相关
-
-
-
整合分析:结合以上数据,得出最终的分析结果,并结合数据思考各数据结果出现的原因并进行适当调整(样本容量小、选取自变量组合不合适、数据有误等等)。
-
-
如果认为回归结果不理想,可重新选择分析变量,如:reg y x1 x2 x4。也可对样本数据进行筛选,如reg y x1 x2 x4 if x3>30.00。得到分析结果进行对比,选择最优变量组。
-
因此,最优的数据分析结果数据组应为P值无限接近于0且R2无限接近于1的数据组。(在数据样本足够多的基础上)
3.保存数据
根据需要进行数据保存,点击Save图标或者点击工具栏File→Save,将数据存为stata的文件格式(文件扩展名为“.dta”,如“qudao.dta”)。后面再使用可直接打开,打开方式有三种,一是直接双击stata文件用stata软件打开;二是打开stata软件,点击Open图标或者点击工具栏File→Open,选择要打开的stata数据;三是直接在Command窗口输入文件位置(如C:\Users\sunxiaojing03\Desktop\stata\stata数据)。
四、其他说明
1.stata中对于字母的大小写是严格区分的,因此stata建议对于变量名一律使用小写字母。
2.stata的分析数据功能中有大量不同的命令语句,有不同的作用和应用场景。如统计特征Summarize、变量之间的相关系数corr等。
五、附件
stata安装包