统计学中数据清洗 (入门-基本操作)-机器学习数据清洗的基础

数据清洗

这里的数据清洗,实际上是数据的预处理,在我们获取一切的生活数据,总是不能按我们的思维模式去得到,要么数据指标存在年份的缺失,要么就是关于统计指标口径不一致,还有就是出现一些我们意想不到的异常值,这时,我们是删除数据呢?还是静静的思考,为什么会出现这种情况。


在本专业(经济统计中)数据清洗往往是对缺失值对处理以及对统计口径对调整。


缺失值处理

缺失值是在宏观数据和微观数据中常常出现的问题,对于数据对不完整,对模型来讲是无法进行下去的,传统中,缺失值的处理办法有很多。


均值法

均值法通常又有无条件均值和有条件均值

无条件

无条件均值是指 ,缺失值用指标的平均值来代替。在截面数据中,平均值替代公式:
X ^ i = ∑ j = 1 n X j n − 1 ( j = 1 , 2 , … , n j ≠ i ) \hat{X}_{i}=\frac{\sum_{j=1}^{n} X_{j}}{n-1}(j=1,2, \ldots, n j \neq i) X^i=n1j=1nXj(j=1,2,,nj=i)
时间序列数据:无条件均值插补公式:
X ^ t = ∑ q = 1 T X q T − 1 ( q = 1 , 2 , … , T t ≠ T ) \hat{X}_{t}=\frac{\sum_{q=1}^{T} X_{q}}{T-1}(q=1,2, \ldots, T \quad t \neq T) X^t=T1q=1TXq(q=1,2,,Tt=T)

有条件

有条件均值插补法,是通过约束条件来限制插补的数据,又可以分为分层插补、加权插补。
分层插补法:将样本数据按照某种尺度进行分类,然后将存在缺失值的样本个体定位,将样本缺失值按照该类别的平均值替代
X ^ i k = ∑ j = 1 m X j k m − 1 ( j = 1 , 2 , … , m j ≠ i ) \hat{X}_{i k}=\frac{\sum_{j=1}^{m} X_{j k}}{m-1} \quad(j=1,2, \ldots, m \quad j \neq i) X^ik=m1j=1mXjk(j=1,2,,mj=i)
加权插补法:是指利用缺失值相邻的样本信息进行替代,在时间序列中,由于样本个体具有时间尺度,现将样本按照时间顺序进行排序,然后去缺失值相邻样本的均值替代。最简单的是算术平均值插补法
公式
X ^ t = X t − 1 + X i + 1 2 \hat{X}_{t}=\frac{X_{t-1}+X_{i+1}}{2} X^t=2Xt1+Xi+1

注意

在截面数据中,加权插补法使用的情况不多,这时因为截面数据的经济惯性较小,并且没有找到符合经济惯性的参照系。比如,在多个指标的截面数据中,可以发现缺失值与某一个变量之间存在强相关,那么可以先对该变量进行排序,在取缺失值相邻的样本均值替代缺失值。
公式: X ^ i ∣ Y i = X i − 1 ∣ Y i − 1 + X i + 1 ∣ Y i + 1 2 \hat{X}_{i} \mid Y_{i}=\frac{X_{i-1}\left|Y_{i-1}+X_{i+1}\right| Y_{i+1}}{2} X^iYi=2Xi1Yi1+Xi+1Yi+1

平台法

平台法分为热平台和冷平台两种,热平台其实和邻近插补差不多。

热平台

  • List item

热平台是指,在同一插补类别中,使用与缺失值样本相似的完整数据样本信息替代相应的缺失值。打个比方:**小明和小刚是对双胞胎,当你看到小明对样子,自然就能想像出小刚的样子。**这种方法通常是比较常见的。不需要模型限制,并且简单,难度就是需要找到一个良好的参照。

冷平台

其实和热平台差不多,只是在统计资料中,前者使用的是当期调查信息,后者使用的是其他的资料,比如前期的调查资料等

临近插补

它不需要找一个“双胞胎”,只需要匹配变量最接近的样本数据信息,这个距离通常是欧式距离、马氏距离。

比率法

比率法是和努复制信息与样本中的有效回答记录建立一个比率模型,模型表明了目标变量和辅助变量之间的关系。然后根据辅助变量信息,进行比率模型的缺失值填补。

回归法

回归法也叫趋势外推法,其本质是条件均值插补,但其采用回归函数但形式进行插补。不说了,一般都是用回归法进行缺失值的处理。
基本流程:
E ( Y i ∣ X i ) = β 0 + β 1 X u i + β 2 X 2 i E\left(Y_{i} \mid X_{i}\right)=\beta_{0}+\beta_{1} X_{u i}+\beta_{2} X_{2 i} E(YiXi)=β0+β1Xui+β2X2i
假设有一组数据,x1,x2,y,通过样本数据,拟合出线性模型,得到回归模型,利用它补充缺失值的数据,其同属于又条件均值插补,但是融合了误差控制的思想,所以参数满足blue,所以广受大家的应用。

EM迭代法

EM迭代法与回归模型相比,更具有效性,在E步中,利用已有的数据进行回归,得到回归参数,在利用回归参数估计缺失值。
公式: E ( Y ∣ X ) = X β 1 X ∗ β 1 = Y ^ 1 \begin{array}{l} E(Y \mid X)=X \beta^{1} \\ X^{*} \beta^{1}=\hat{Y}^{1} \end{array} E(YX)=Xβ1Xβ1=Y^1
在M步中,把估计值和原始值进行回归,得到新的回归参数,再利用新的回归参数估计缺失值;重复迭代,直到缺失值收敛到某一个固定的精度。
E ( Y , Y ^ 1 ∣ X , X ∗ ) = ( X , X ∗ ) β 2 X ∗ β 2 = Y ^ 2 \begin{array}{l} E\left(Y, \hat{Y}^{1} \mid X, X^{*}\right)=\left(X, X^{*}\right) \beta^{2} \\ X^{*} \beta^{2}=\hat{Y}^{2} \end{array} E(Y,Y^1X,X)=(X,X)β2Xβ2=Y^2
∣ Y ^ k − Y ^ k − 1 ∣ < ε , \left|\hat{Y}^{k}-\hat{Y}^{k-1}\right|<\varepsilon, Y^kY^k1<ε, 迭代停止。

预测法

预测法也叫自回归法,假定经济现象有惯性,那么当期的经济数值会受到前期、前前期的影响,据此可以建立一个自回归模型,估计自回归参数,然后利用自回归参数进行插补。适用于末尾缺失的数据。常用的是AR模型,ARIMA模型
公式:
X t = β 1 X t − 1 + β 2 X t − 2 + … + β k X t − k + ε t X_{t}=\beta_{1} X_{t-1}+\beta_{2} X_{t-2}+\ldots+\beta_{k} X_{t-k}+\varepsilon_{t} Xt=β1Xt1+β2Xt2++βkXtk+εt

口径调整

在数据库中我们常常会遇到数据口径不一致的情况,一般通过画图,或者对数据敏感较强的人会发现!!!我们在写论文,做折线图的时候,如果发现某一年或者某几年的统计指标有些不同寻常,那么你一定要小心!!或许就是出现了统计口径的调整。如果,将这样的数据放入我们的模型中,对于反应的经济现象或者结论就会出现问题。

处理办法

用案例说吧!

数据

在这里插入图片描述
数据来源:重庆统计局

在这里插入图片描述
通过作图,我们发现在2005出现一个相当大的波动,数据敏感的话,我们一定会去发现为什么??
我看CNKI很多的文章关于此段的解释,都是重庆2005年重庆对基础设施进行大量的投入,导致交通里程数激增。

问题

从数据表和折线图中可以看出,2005 年重庆市公里里程数发生有一个突变情况。遇到
数据突变情况,那么必须要引起足够地重视,拷问数据突变的原因。在这里,我们可以通过
注释了解到,重庆市 2005 年开始,在公路线路里程数的统计里加入了乡道。如果删除 2005
年以前的信息,那么评价就无法获得 2005 以前的数据。如果不做数据口径调整,那么 2005
年以前的评价结果与 2005 年及以后的评价结果不具有可比性。所以,我们需要对上述口径
进行调整。

调整

调整时,统一口径的依据有两种:其一是以包含乡道为统一口径,对 2000-2004 年数据
进行调整;其二是以不包含乡道为统一口径,对 2005-2017 年数据进行调整。这两种方式都
可行,一般情况下,我们会选择调整数据较少的方式,尽可能地保留原始数据信息。
口径调整有两种,第一种是比率法,第二种是回归估计法。
比率法是指,依据已知的比率信息,对数据进行调整。例如上述数据中,如果给出了 2004
年包含乡道的公路里程数与不包含乡道的公路里程数之比为 3:1。那么,依据这个给定比率,
2004 年包含乡道的公路里程数为 32344*3=97032 公里,并以此类推 2000-2003 年。
回归估计法是指在,在未知口径变动的具体数据依据下,对模型进行回归分析,通过建
立模型显著的回归方程来前推或者后推数据。
如上例所示,对于 2005-2017 年,我们可以建立公里里程数关于年份的回归方程,如下
所示:
y = 156.02 x 2 + 1872.4 x + 97113 ( R 2 = 0.9796 ) \begin{array}{ll} y=156.02 x^{2}+1872.4 x+97113 & \left(R^{2}=0.9796\right) \end{array} y=156.02x2+1872.4x+97113(R2=0.9796)
从拟合优度等于 97.96%,可以看出模型的拟合效果较好,回归误差较小。一般情况下,
拟合优度达到 85%,便可以使用该模型进行估计。
对于 2004 年的公路里程数,令 X=0,则可前推 2004 年重庆市公路里程数为 97113。注
意此处为 X=0,而不是 X=2004。这是利用 EXCEL 趋势线功能,其默认的自变量为 1、2、3、…。

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Wency(王斯-CUEB)

我不是要饭的

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值