stata

本文介绍了Stata统计软件,包括其主要功能、操作页面的五大窗口,以及通过一个城市空气质量影响因素的多元线性回归分析案例,详细阐述了数据导入、模型建立、结果解读和保存数据的步骤。通过分析得出,Stata是进行统计分析的强大工具,适合处理多种统计问题。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、stata介绍

1.简介

Stata统计软件是目前世界上最著名的统计软件之一,国外将Stata与SAS、SPSS一起并称为三大权威软件。它是一套提供其使用者数据分析、数据管理以及绘制专业图表的完整及整合性统计软件。Stata具有很强的统计功能,除了传统的统计分析方法外,还收集了近20年发展起来的新方法,其作图模块包括直方图、条形图、百分条图、百分圆图、散点图、散点图矩阵、星形图和分位数图,图形精美,能满足绝大多数用户的需要。

2.主要功能

stata的主要功能:数据管理、统计功能、作图功能、矩阵运算,程序设计。

二、stata软件操作页面介绍——五大窗口

 

①:Review(历史窗口):此窗口记录自启动stata以来执行过的命令

②:Results(结果窗口):此窗口显示执行stata命令后的输出结果

③:Command(命令窗口):在此窗口输入想要执行的stata命令

④:Variables(变量窗口):此窗口记录着目前stata内存中的所有变量

⑤:Properties(性质窗口):此窗口显示当前数据文件与变量的性质

为了使屏幕分割更美观实用且符合个人使用习惯,以上各窗口均可任意调整大小和位置。可通过菜单“Edit”→“Preferences”→“General Preferences”→“Windowing”→“Lock splitter”锁定当前画面,后续重启stata时自动显示设置后的画面比例。

三、操作流程(以探究城市空气质量的影响因素为例——多元线性回归分析)

多元线性回归分析:研究多个自变量是如何直接影响一个因变量的数据分析方法。

1.数据方面

  • 获取分析所需的各项数据,确定自变量(Xn)和因变量(Y)

(附数据表)

Y:空气质量 X1:gdp X2:二氧化碳 X3:森林覆盖率 X4:人口

  • 多元线性回归方程为Y=aX1+bX2+cX3+dX4+e(e为常数)

2.stata系统操作

  • 打开stata,点击Data Editor(Edit)导入数据(表头要输入到表头栏,不能粘贴到表格中),并修改表头的Name和Label(Name为自变量和因变量,只能为英文和数字;Label为对应标签,进行数据说明)

  • 关闭数据导入窗口,可在右侧“Variables”窗口中看到已导入的变量

  • Command处输入命令进行回归分析,函数为”regress 因变量 自变量1 自变量2 自变量3…,简写为reg y x1 x2 x3…

  • 回车发送得到回归结果

  •  得到回归方程,对结果进行回归分析
    • 回归方程:y=12.1210x1-0.3514x2+1.3683x3-0.0094x4-1055.866(Coef.为各变量系数,即自变量每变化一个单位对因变量的影响程度。如x1美增加一个单位,y就增加12.1210个单位。)

    • 简单分析:x1、x3与y呈正相关(y随x1、x3的增长而增长),x2、x4与y呈负相关(y随x2、x4的增长而降低)。

    • 深入分析:(根据以上重点分析指标)

      • Number of Obs:样本容量,即一共有多少组分析数据

      • F值:F值检验,检验数据模型中的参数是否显著不为零。根据F值判断该组模型在多大的置信度下显著成立。

      • Prob:P值(t检验的指标),P值小于0.05表示该组自变量对因变量解释性很强,选取的变量是有效的。P值越小,显著性越高。(该案例中P=0.0005,远小于0.05,因此说明选取的该组自变量是有效的。同时,根据下侧x1-x4的详细数据可得,x3和x4在四个自变量中显著性最高,其次是x1)

      • R2:可决系数,范围为0≤R2≤1。可决系数越接近于1,证明该组数据分析的拟合优度越高,自变量与因变量的关系越密切。(该案例中R2=0.5275,远比1小,说明虽然选择的四个自变量有效,但组合来看与空气质量的拟合优度却不高,此种情况下,应该调整不同的自变量组合以达到理想的分析结果)

        • 0≤R2<0.3,极低度相关

        • 0.3≤R2<0.5,低度相关

        • 0.5≤R2<0.8,中度相关

        • 0.8≤R2≤1,高度相关

    • 整合分析:结合以上数据,得出最终的分析结果,并结合数据思考各数据结果出现的原因并进行适当调整(样本容量小、选取自变量组合不合适、数据有误等等)。

  • 如果认为回归结果不理想,可重新选择分析变量,如:reg y x1 x2 x4。也可对样本数据进行筛选,如reg y x1 x2 x4 if x3>30.00。得到分析结果进行对比,选择最优变量组。

  • 因此,最优的数据分析结果数据组应为P值无限接近于0R2无限接近于1的数据组(在数据样本足够多的基础上)

3.保存数据

根据需要进行数据保存,点击Save图标或者点击工具栏File→Save,将数据存为stata的文件格式(文件扩展名为“.dta”,如“qudao.dta”)。后面再使用可直接打开,打开方式有三种,一是直接双击stata文件用stata软件打开;二是打开stata软件,点击Open图标或者点击工具栏File→Open,选择要打开的stata数据;三是直接在Command窗口输入文件位置(如C:\Users\sunxiaojing03\Desktop\stata\stata数据)。

四、其他说明

1.stata中对于字母的大小写是严格区分的,因此stata建议对于变量名一律使用小写字母。

2.stata的分析数据功能中有大量不同的命令语句,有不同的作用和应用场景。如统计特征Summarize、变量之间的相关系数corr等。

五、附件

stata安装包

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值