1. 常用的数据分析工具
Stata、SPSS、SAS、R、Python,甚至Excel都可以做数据分析工作。R和Python是程序员的首选,可以通过编写程序实现成整体的数据清洗、分析、挖掘,还可以增加扩展支持,把一套代码应用于类似的数据分析场景中。对于专业人士(如生物、医疗领域)来说,掌握编程语言的学习成本太高,他们更关注通过工具,方便快捷地得到分析结果,SPSS和Stata主要是图形界面的软件操作,相对来说更为合适。很多专业领域,发论文时都使用了Stata和SPSS软件的分析结果,久而久之,也使该软件成为了该领域的数据分析标准工具。
2. Stata安装和运行
我下载的是Stata 15.1 Linux 版本,下载到本地解包后,可看到工具stata和xstata,它们分别是命令行版本和图形界面版本,图形界面中也可以使用命令,运行xstata:
$ ./xstata
可在其下方的框内输入Stata命令回车运行,该软件中最常用的三个菜单是:Data(数据处理)、Graphic(画图)和Statistic(统计)。功能非常丰富,包括很多二级三级子菜单,下文将介绍一些最常用的功能。
3. Stata数据导入
Stata数据导入主要有两种方式,一种是从文件导入,另一种是手动编辑内容。用文件菜单中的Open打开文件,支持Stata定义的数据’.dta’,图表’.gph’等文件类型(Python的Pandas支持导出Stata文件类型,但默认不支持中文字段名),还可通过文件菜单中的Import导入Excel、