（三）数据清理之stata的使用----------merge，append使用

最新推荐文章于 2025-02-27 21:25:58 发布

qq_42729246

最新推荐文章于 2025-02-27 21:25:58 发布

阅读量4.1w

点赞数 38

分类专栏： stata数据清理

本文链接：https://blog.csdn.net/qq_42729246/article/details/105623056

版权

stata数据清理专栏收录该内容

6 篇文章

订阅专栏

上一篇对stata的一些基本命令进行了介绍解释，这篇主要介绍一下数据的合并问题吧，为什么要进行数据的合并，主要是数据在不同的文件中，而且数据来源具有多样性，而我们都知道模型的回归数据一定要在一个文件中，此时才能进行模型的构建与检验，所以我们需要对数据进行相应的合并。合并有两种类型，一种是横向合并，一种为纵向合并，通俗来讲，就是如果是变量没发生变化，此时需要追加数据就需要进行纵向合并，如果需要追加变量就需要进行横向合并。

append(纵向合并)

以例子说明该命令的使用。

use 2015
append using 2016
save 15-16

上面这一例子相对简单，命令行的第一行表示我使用的文件名为“2015”的文件，该文件为dta格式，该格式为stata自身默认的保存格式，可以直接使用use这个命令使用该文件，第二行为进行合并的文件名，将文件2016与2015进行合并，在这个合并的过程，对于两个文件共有的变量，stata会直接在原有文件基础上进行添加，如果2016的变量有2015没有的变量，这是合并之后会新增这些2016里的变量，命令行最后一行为保存该合并文件，其保存格式为dta格式。

merge（横向合并）

使用merge进行合并略显复杂，为什么要进行横向合并呢，举个例子来说明这种合并的作用吧，假如现在我有两个表，表一中包含city、GDP、people、invest这四个变量，而现在我又找到了一些关于city（城市）的变量：school、area、hospital，假设你两个表的city放的位置完全相同，那么你用excel直接复制粘贴都可以，但现实中往往会出现城市数量不一样的情况，如果你用excel会相对比较麻烦，此时使用stata中的merge命令可以大大提高你的效率，同时减少出错的概率。

use 2015  //打开文件2015
merge 1:1 city  year ... using 2015fu  //将city，year作为两个文件的关键变量进行合并,"..."表示还可以继续添加两个表所共有的变量进行识别
drop _merge //删除合并之后系统自动产生的_merge变量
save hebing  //将合并的文件保存为hebing

首先确定两个进行合并的文件的关键变量的关系，主要有这几种关系：一对一（1:1），一对多（1：m），多对一(m:1）等，因为其实有时候我对这个关系也不是很确定，此时建议大家采用m:m，这种情况stata会最自动帮你识别，合并之后的文件系统会自动在最后一列帮你新增一个_merge变量，在该变量所在列中，主要会出现三个值，如果_merge=1表示该样本为打开文件的样本，该样本并没有与要进行合并的文件中的样本进行合并，通俗将就是表1有但表2没有的样本；如果_merge=2表示该样本为需要合并文件的样本，该样本并没有与要已打开文件中的样本进行合并，通俗将就是表2有但表1没有的样本；如果_merge=3表示将表表1和表二都有的样本，说明通过关键字进行了相应的合并；建议在保存文件之前修改或删除该变量名，否则下次在进行合并时软件会报错，因为已有文件中有了这一变量。