(二)数据清理之stata的使用----------基本命令的操作解释

本文详细介绍了Stata软件中的十个基础命令,包括路径更改、文件导入与保存、变量操作及逻辑判断等,适合初学者快速掌握Stata的基本操作。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

上一篇忘记说了,我对命令完全是靠自己的理解来进行阐述的,可能阐述的不是那么规范化,但我希望我写的仅仅是大家能明白就行了。

先补充几个基本命令。

 

  1. cd:很多编程软件中都有该命令,该命令主要负责更改当前工作路径,一般stata的默认路径是你安装的路径,所以保存的文件也在你安装的路径中,如果你想更改当前的工作路径,需输入:cd  D:\example,之后你的工作路径便在  D:\example。
  2. ssc install xx(软件包名称):由于一些程序包可能并不是stata自带的,此时需要这个命令安装该程序包才可以进行使用。
  3. use:此命令主要负责导入dta格式的文件,具体使用方法为:use   文件名
  4. clear:清楚当前文件,由于stata每次只能打开一个文件,所以如果想打开另一个文件,必须在命令行输入clear。
  5. save:将当前文件保存为dta格式,具体使用方法为:save  文件名。
  6. rename:对变量名进行更改,具体用法为:rename  oldname newname
  7. label:对变量进行加标签,具体用法为 label  gdp  "国内生产总值"(label    变量名称    标签内容)
  8. replace:主要用于内容的替换,我常用的有两种情形,一是对样本进行替换,例如
    replace year=2015  in  15

    该命令行的含义是将变量year的第15个样本替换为2015,另一种是文件的替换,例如

    save 2016,replace
    

    该命令行的含义是将已有的文件2016替换为新文件2016,但建议最好不要这样操作,一旦文件用了replace,那么你原来的文件便没了,比如你有一份原始数据,该数据没有经过任何修改,此时你对该文件进行了一系列的数据处理,如果你直接replace,那么你的基本数据便没了,一旦以后模型构建出现任何问题,你需要原始数据,那么会造成很多问题。

  9. drop:主要用于变量、样本的删除,具体使用方法为:drop 变量名 

  10. keep:drop是用于删除使用的命令,那么keep就是用来保留满足条件的值,具体使用方法为:keep 变量名,当然keep经常会和一些逻辑判断指令一起进行使用,如if

  11. if:条件语句,该命令主要和其他命令相结合进行一定的逻辑判断。用一些具体命令来说明。if在各个编程软件包括excel都有很大的用处,所以建议大家一定要将这个命令用熟。同时需要了解一些符号的使用。

  • &(且,与,):需要同时满足所有条件

  • |(或):满足其中的一个条件即可

  • ==:在筛选满足条件的数值时需要打入的是==,而不是=

    keep if year==2015
    drop if gdp>=1500
    ​

     

我只是选择了连个命令和if一起进行使用,其实只要是进行逻辑判断的if都可以进行使用,具体问题具体分析吧。我举的例子可能相对比较简单,但我的初衷就是希望用简单的代码让大家明白这些命令的具体操作,尽量做到通俗易懂。

这片主要对一些基本指令进行了解释,这10个命令可以说是比较基础的指令,但他们又起着不可或缺的作用,之后我对一些数据处理具体指令进行详细的阐述。

 

### 如何在 Stata 中计算 Z-Score Z-Score 是一种标准化方法,用于衡量某个观测值距离均值的标准差数。其基本公式如下: \[ Z = \frac{X - \mu}{\sigma} \] 其中 \( X \) 表示原始数据中的单个数值,\( \mu \) 表示样本或总体的平均值,而 \( \sigma \) 则表示标准差。 以下是具体实现方式以及注意事项: #### 方法一:手动计算 可以利用 `egen` 命令分别生成变量的均值和标准差,再通过简单运算得到 Z-Score。 ```stata * 计算某一变量 var 的 Z-Score egen mean_var = mean(var), by(groupvar) // 如果不需要按组计算,则去掉 by() 参数 egen sd_var = sd(var), by(groupvar) gen z_score = (var - mean_var) / sd_var drop mean_var sd_var // 清理中间变量 ``` 上述代码中,`mean()` 和 `sd()` 函数被用来创建临时变量存储每组内的均值与标准差[^3]。 #### 方法使用内置命令 `standardize` Stata 提供了一个更简洁的方式——调用外部 ado 文件来完成这一操作。如果尚未安装相关工具包,可以通过以下指令获取它: ```stata ssc install standardize, replace help standardize ``` 之后执行下面这行语句即可快速获得所需结果: ```stata standardize var, gen(zscored_var) ``` 这里会自动生成一个新的名为 `zscored_var` 的列作为原变量经过标准化处理后的版本[^4]。 需要注意的是,在实际应用过程中可能还会遇到一些特殊情况,比如缺失值处理等问题都需要额外关注并妥善解决。 --- #### 关于 T-Score 转换至 Z-Score 当提到从 T-Score 转化成 Z-Score 时,通常是因为两者都属于不同形式下的标准化得分体系。一般而言, \[ T = 50 + 10 * Z \] 因此反向推导得出对应的转换关系式应为: \[ Z=\left(T-50\right)/10 \][^1] --- #### 注意事项 对于面板数据分析场景下运用 DID(Difference In Differences)模型检验政策效果有效性期间发现存在不满足平行趋势假设情况的话,则需考虑引入权重调整机制或者其他替代方案加以修正[^2]。 ---
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值