来源: 根据Stata帮助文件+人大经济论坛帖子 整理; 所有代码均可运行。
如果觉得数据中存在异常值,如何处理呢?
接下来,我们来一起讨论一下Stata软件中累积分布命令cumul在处理异常值时的应用。
1.什么是累积分布函数
那么,什么是累积分布呢?我们来具体看一个例子。
导入数据 webuse hsng
生成变量对应点累积分布 cumul faminc, gen(cum)
绘制累积分布图形 line cum faminc, sort

所谓累积分布,指的是随机变量小于或者等于某个数值x的概率 。通过累积分布函数,就可以识别数据的概率分布情况。
2.异常值的处理办法
如果我们解决异常值的办法是 剔除首尾各2%的异常值,那么如何处理?
还是接着上面的例子
gen faminc_new=faminc
replace faminc_new=. if cum<.02 cum>.98
在这里,我们生成了一个新的序列faminc_new,并且让faminc_new只保留原始序列faminc中介于中间2%-98%之间的数据。