stata中计算公式命令_Stata:缺失值的填充和补漏

本文介绍了Stata中处理缺失数据的常用命令tsfill和ipolate,强调了在时间序列和面板数据中的应用,讨论了它们的优缺点,并提供了实际操作示例。通过插值和外推方法,tsfill用于填补时间序列中的缺失值,而ipolate则用于数据的插值和外推,以减少因缺失值导致的信息丢失。
摘要由CSDN通过智能技术生成

NEW!连享会·推文专辑:
Stata资源 | 数据处理 | Stata绘图 | Stata程序
结果输出 | 回归分析 | 时间序列 | 面板数据 | 离散数据
交乘调节 | DID | RDD  |  因果推断 |  SFA-TFP-DEA
文本分析+爬虫 | 空间计量 | 学术论文 | 软件工具

连享会学习群-常见问题解答汇总:
?  WD 主页:https://gitee.com/arlionn/WD

作者: 刘祎 (江西财经大学国贸学院)邮箱: louisones@qq.com

? 连享会主页:lianxh.cn

216c2826ff52cfa1ddcfc826f33c4f4a.png
Stata 暑期班:9天直播

? 时间:2020.7.28-8.7
? 嘉宾:连玉君 (中山大学) | 江艇 (中国人民大学)
? 主页:https://gitee.com/arlionn/PX  | ? 微信版

  「基础不牢,地动山摇……」

6c37990bac88352f769a0ebc833f3a93.png

目录[

  • 1. 引言

  • 2. 问题与方法

    • 2.1 缺失数据会带来的问题

    • 2.2 缺失数据的常用方法

  • 3. tsfill 和 ipolate 命令简介

  • 4. Stata 实操:tsfill 和 ipolate 命令

    • 4.1  时间序列数据

    • 4.2 面板数据

  • 5. iploate 方法评价

  • 参考资料


1. 引言

在实证研究中,我们经常会遇到数据缺失的问题。在样本较大的情况下,我们可以删除缺失值,而在样本较小的情况下,缺失值的影响会变得很大,此时,填补数据这项工作就变得相对重要。

本文主要介绍了 Stata 中较为常用的缺失数据处理命令 tsfillipolate,旨在为大家处理缺失数据问题时提供帮助。

2. 问题与方法

2.1 缺失数据会带来的问题

通常,在缺失部分数据的情况下,只要数据量足够大,我们可以将含有缺失值的样本删掉,并且不会对结果产生太大影响。但是,在「样本量小」和「缺失数据多」的情况下,我们简单的删掉数据,会损失较多的信息,并且使得结果有偏。

例如,下表中有 8 个样本,左边为含有缺失值的数据,右边为完整数据,并且左边部分 有 4 个缺失值。当我们删除缺失值时,左边 均值为 39,而右边 均值为 29.75,可以看出二者还是有很大差别的。

+--------------------------------------+
| 含有缺失值的数据 | 完整数据 |
+--------------------------------------+
|Case Age Gender | Case Age Gender |
+--------------------------------------+
|1 . Female | 1 21 Female |
|2 . Male | 2 22 Male |
|3 39 Male | 3 39 Male |
|4 . Female | 4 20 Female |
|5 42 Male | 5 42 Male |
|6 . Female | 6 18 Female |
|7 37 Male | 7 37 Male |
|8 38 Male | 8 39 Male |
+--------------------------------------+
(缺失数据和完整数据的基本格式)

2.2 缺失数据的常用方法

求均值

  • 好处:简单
  • 坏处:取均值会降低数据的方差
  • 使用范围:当分组数据特征是可以观测到的情况下,可以分组求均值

删除缺失值

  • 好处:
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值