原标题:如何用Stata作漂亮的图?来看超详细教程!
概要
本文涉及到的内容包括,在拿到一个数据集后:
如何使用list、describe命令,初步了解数据集;
如何使用codebook、summarize命令了解某一个变量x的缺失值、统计量,并使用stem、graph box、histogram命令画出茎叶图、箱式图以及柱状图;
如何使用twoway graphs来展示数值型变量x和y之间的关系,并画出散点图(scatter plot)、折线图(line plot)、带数据标记的直线图(connected plot)等多种图像;
如何使图像变得更加美观。
下面,我们通过例子来了解这些命令。本次使用的是1900-1999年美国期望寿命的数据,这是Stata 14.0自带的一个数据库。
提醒
(1)使用Stata时,尽量不用命令框,而最好使用do file编写命令。这样可以保证操作的可重复性。
(2) 本文中,所有命令以黄色背景、粗体、蓝色字体显示。
(3) do file中命令末尾的双斜线//表示添加注释(例如,图0.1.1第6行set linesize 255后为注释),三斜线///表示换行(例如,图0.1.1从第8行到16行为一个完整的命令,其中使用///换行)。
图0.1.1
1. 导入数据并观察
为了方便大家学习,我们在本教程中使用Stata自带的数据uslifeexp.dta,大家可以输入sysuse dir这行命令查看系统自带的数据库(图1.1.1)。若没有uslifeexp这个数据库,大家可以在http://www.stata-press.com/data/r9/uslifeexp.dta下载。
图1.1.1 Stata 14.2自带的数据库
. sysuse uslifeexp这一步的目的是导入该系统自带数据。屏幕显示的结果如下。
. list in 1/10通过这个命令,我们可以查看该数据库第1到第10个数据,对数据有一个初步的了解。屏幕显示的结果如下。
. describe通过这个命令,我们可以查看这个数据集的简要介绍,包括了样本数量(obs:100)、变量数量(vars:10)、大小(size:3800)、以及每个标量的简要介绍。屏幕显示的结果如下。
2. 单变量探索以及作图
在这一小节中,我们一起来对某一个变量进行探索。我们会用到四个命令,分别是codebook、summarize、stem以及histogram。我们以数据集中的变量le (life expectancy)为例。这个变量是人均预期寿命。
2.1 CodebookCodebook这个命令适合于我们初次接触一个数据集的变量。
. codebook le下图是codebook le这行命令给出的结果。我们可以看到,output给出了该变量的标签(life expectancy)、类型(numeric: float)、范围、单位、特异值、缺失值(0/100)、以及一些统计量。这样,我们对于该变量有一个初步的了解。
2.2 SummarizeSummarize这个命令可以让我们更加深入地探索变量的统计量。
. summarize le下图是summarize le这行命令的结果,给出最常用的几个统计量。
而summarize le, detail这行命令则会给出更多的统计量。
summarize le, detail
<