(三)数据清理之stata的使用----------merge,append使用

上一篇对stata的一些基本命令进行了介绍解释,这篇主要介绍一下数据的合并问题吧,为什么要进行数据的合并,主要是数据在不同的文件中,而且数据来源具有多样性,而我们都知道模型的回归数据一定要在一个文件中,此时才能进行模型的构建与检验,所以我们需要对数据进行相应的合并。合并有两种类型,一种是横向合并,一种为纵向合并,通俗来讲,就是如果是变量没发生变化,此时需要追加数据就需要进行纵向合并,如果需要追加变量就需要进行横向合并。

append(纵向合并)

以例子说明该命令的使用。

use 2015
append using 2016
save 15-16

上面这一例子相对简单,命令行的第一行表示我使用的文件名为“2015”的文件,该文件为dta格式,该格式为stata自身默认的保存格式,可以直接使用use这个命令使用该文件,第二行为进行合并的文件名,将文件2016与2015进行合并,在这个合并的过程,对于两个文件共有的变量,stata会直接在原有文件基础上进行添加,如果2016的变量有2015没有的变量,这是合并之后会新增这些2016里的变量,命令行最后一行为保存该合并文件,其保存格式为dta格式。

merge(横向合并)

使用merge进行合并略显复杂,为什么要进行横向合并呢,举个例子来说明这种合并的作用吧,假如现在我有两个表,表一中包含city、GDP、people、invest这四个变量,而现在我又找到了一些关于city(城市)的变量:school、area、hospital,假设你两个表的city放的位置完全相同,那么你用excel直接复制粘贴都可以,但现实中往往会出现城市数量不一样的情况,如果你用excel会相对比较麻烦,此时使用stata中的merge命令可以大大提高你的效率,同时减少出错的概率。

use 2015  //打开文件2015
merge 1:1 city  year ... using 2015fu  //将city,year作为两个文件的关键变量进行合并,"..."表示还可以继续添加两个表所共有的变量进行识别
drop _merge //删除合并之后系统自动产生的_merge变量
save hebing  //将合并的文件保存为hebing

 

首先确定两个进行合并的文件的关键变量的关系,主要有这几种关系:一对一(1:1),一对多(1:m),多对一(m:1)等,因为其实有时候我对这个关系也不是很确定,此时建议大家采用m:m,这种情况stata会最自动帮你识别,合并之后的文件系统会自动在最后一列帮你新增一个_merge变量,在该变量所在列中,主要会出现三个值,如果_merge=1表示该样本为打开文件的样本,该样本并没有与要进行合并的文件中的样本进行合并,通俗将就是表1有但表2没有的样本;如果_merge=2表示该样本为需要合并文件的样本,该样本并没有与要已打开文件中的样本进行合并,通俗将就是表2有但表1没有的样本;如果_merge=3表示将表表1和表二都有的样本,说明通过关键字进行了相应的合并;建议在保存文件之前修改或删除该变量名,否则下次在进行合并时软件会报错,因为已有文件中有了这一变量。

  • 37
    点赞
  • 205
    收藏
    觉得还不错? 一键收藏
  • 6
    评论
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值