NEW!连享会·推文专辑:
Stata资源 | 数据处理 | Stata绘图 | Stata程序
结果输出 | 回归分析 | 时间序列 | 面板数据 | 离散数据
交乘调节 | DID | RDD | 因果推断 | SFA-TFP-DEA
文本分析+爬虫 | 空间计量 | 学术论文 | 软件工具
连享会学习群-常见问题解答汇总:
? WD 主页:https://gitee.com/arlionn/WD
作者: 刘祎 (江西财经大学国贸学院)邮箱: louisones@qq.com
? 连享会主页:lianxh.cn
Stata 暑期班:9天直播
? 时间:2020.7.28-8.7
? 嘉宾:连玉君 (中山大学) | 江艇 (中国人民大学)
? 主页:https://gitee.com/arlionn/PX | ? 微信版「基础不牢,地动山摇……」
目录[
1. 引言
2. 问题与方法
2.1 缺失数据会带来的问题
2.2 缺失数据的常用方法
3. tsfill 和 ipolate 命令简介
4. Stata 实操:tsfill 和 ipolate 命令
4.1 时间序列数据
4.2 面板数据
5. iploate 方法评价
参考资料
1. 引言
在实证研究中,我们经常会遇到数据缺失的问题。在样本较大的情况下,我们可以删除缺失值,而在样本较小的情况下,缺失值的影响会变得很大,此时,填补数据这项工作就变得相对重要。
本文主要介绍了 Stata 中较为常用的缺失数据处理命令 tsfill
和 ipolate
,旨在为大家处理缺失数据问题时提供帮助。
2. 问题与方法
2.1 缺失数据会带来的问题
通常,在缺失部分数据的情况下,只要数据量足够大,我们可以将含有缺失值的样本删掉,并且不会对结果产生太大影响。但是,在「样本量小」和「缺失数据多」的情况下,我们简单的删掉数据,会损失较多的信息,并且使得结果有偏。
例如,下表中有 8 个样本,左边为含有缺失值的数据,右边为完整数据,并且左边部分 有 4 个缺失值。当我们删除缺失值时,左边 均值为 39,而右边 均值为 29.75,可以看出二者还是有很大差别的。
+--------------------------------------+
| 含有缺失值的数据 | 完整数据 |
+--------------------------------------+
|Case Age Gender | Case Age Gender |
+--------------------------------------+
|1 . Female | 1 21 Female |
|2 . Male | 2 22 Male |
|3 39 Male | 3 39 Male |
|4 . Female | 4 20 Female |
|5 42 Male | 5 42 Male |
|6 . Female | 6 18 Female |
|7 37 Male | 7 37 Male |
|8 38 Male | 8 39 Male |
+--------------------------------------+
(缺失数据和完整数据的基本格式)
2.2 缺失数据的常用方法
求均值
- 好处:简单
- 坏处:取均值会降低数据的方差
- 使用范围:当分组数据特征是可以观测到的情况下,可以分组求均值
删除缺失值
- 好处: