stata中计算公式命令_Stata：缺失值的填充和补漏

weixin_39592137

于 2021-01-02 08:15:11 发布

阅读量6.9k

点赞数

文章标签： stata中计算公式命令

本文链接：https://blog.csdn.net/weixin_39592137/article/details/112263410

版权

本文介绍了Stata中处理缺失数据的常用命令tsfill和ipolate，强调了在时间序列和面板数据中的应用，讨论了它们的优缺点，并提供了实际操作示例。通过插值和外推方法，tsfill用于填补时间序列中的缺失值，而ipolate则用于数据的插值和外推，以减少因缺失值导致的信息丢失。

摘要由CSDN通过智能技术生成

NEW！连享会·推文专辑：
Stata资源 | 数据处理 | Stata绘图 | Stata程序
结果输出 | 回归分析 | 时间序列 | 面板数据 | 离散数据
交乘调节 | DID | RDD | 因果推断 | SFA-TFP-DEA
文本分析+爬虫 | 空间计量 | 学术论文 | 软件工具

连享会学习群-常见问题解答汇总：
? WD 主页：https://gitee.com/arlionn/WD

作者： 刘祎 (江西财经大学国贸学院)邮箱： louisones@qq.com

? 连享会主页：lianxh.cn

Stata 暑期班：9天直播

? 时间：2020.7.28-8.7
? 嘉宾：连玉君 (中山大学) | 江艇 (中国人民大学)
? 主页：https://gitee.com/arlionn/PX | ? 微信版

「基础不牢，地动山摇……」

目录[

1. 引言
2. 问题与方法
- 2.1 缺失数据会带来的问题
- 2.2 缺失数据的常用方法
3. tsfill 和 ipolate 命令简介
4. Stata 实操：tsfill 和 ipolate 命令
- 4.1 时间序列数据
- 4.2 面板数据
5. iploate 方法评价
参考资料

1. 引言

在实证研究中，我们经常会遇到数据缺失的问题。在样本较大的情况下，我们可以删除缺失值，而在样本较小的情况下，缺失值的影响会变得很大，此时，填补数据这项工作就变得相对重要。

本文主要介绍了 Stata 中较为常用的缺失数据处理命令 tsfill 和 ipolate，旨在为大家处理缺失数据问题时提供帮助。

2. 问题与方法

2.1 缺失数据会带来的问题

通常，在缺失部分数据的情况下，只要数据量足够大，我们可以将含有缺失值的样本删掉，并且不会对结果产生太大影响。但是，在「样本量小」和「缺失数据多」的情况下，我们简单的删掉数据，会损失较多的信息，并且使得结果有偏。

例如，下表中有 8 个样本，左边为含有缺失值的数据，右边为完整数据，并且左边部分有 4 个缺失值。当我们删除缺失值时，左边均值为 39，而右边均值为 29.75，可以看出二者还是有很大差别的。

+--------------------------------------+
|   含有缺失值的数据  |     完整数据     |
+--------------------------------------+
|Case  Age  Gender   | Case Age Gender |
+--------------------------------------+
|1    .     Female   |   1  21  Female |
|2    .     Male     |   2  22  Male   |
|3    39    Male     |   3  39  Male   |
|4    .     Female   |   4  20  Female |
|5    42    Male     |   5  42  Male   |
|6    .     Female   |   6  18  Female |
|7    37    Male     |   7  37  Male   |
|8    38    Male     |   8  39  Male   |
+--------------------------------------+
 (缺失数据和完整数据的基本格式)

2.2 缺失数据的常用方法

求均值

好处：简单
坏处：取均值会降低数据的方差
使用范围：当分组数据特征是可以观测到的情况下，可以分组求均值

删除缺失值

好处：

最低0.47元/天解锁文章

weixin_39592137

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫