字段缺失_数据缺失、错误的原因及常规处理方法

数据缺失、错误的原因

  1. 生产过程中由于业务、算法等复杂,导致数据在收集、加工、保存的失败造成的数据缺失,比如数据存储的失败,存储器损坏;
  2. 数据的产生都是又人参与在,在整个过程中,由于人为的主观失误、历史局限或有意隐瞒造成的数据缺失,比如,录入时的错别字、统一物体在不同区域、不同系统中名称不同意、前端录入数据时是无效的,或误漏录了数据。

数据缺失、错误的的类别

常规情况霞,缺失、错误的数据可能是完全随机缺失,随机缺失和完全非随机缺失。完全随机缺失、错误指的是数据的缺失、错误是随机的,数据的缺失、错误不依赖于任何不完全变量或完全变量;随机缺失指的是数据的缺失、错误不是完全随机的,这些数据依赖于其他完全变量;完全非随机缺失指的是数据的缺失依赖于不完全变量自身。

从缺失、错误值的所属属性上讲,如果所有的缺失、错误值都是同一属性,那么这种缺失、错误成为单值缺失、错误,如果缺失、错误值属于不同的属性,称为任意缺失。另外对于时间序列类的数据,可能存在随着时间的缺失、错误,这种缺失、错误称为单调缺失。

缺失、错误值的处理方法

对于缺失、错误值的处理,通常采用的方法为补全或删除。对于主观数据,人将影响数据的真实性,存在缺失、错误值的样本的其他属性的真实值不能保证,那么依赖于这些属性值的插补也是不可靠的,所以对于主观数据一般不推荐插补的方法。插补主要是针对客观数据,它的可靠性有保证。

1、如果缺失、错误值是个例,通常以删除方式处理;

2、对于复杂的数据,每条记录可能包含几十上百个字段,删除后造成的损失将大于缺失、错误造成的影响,那么这类数据需要插补缺失或修正错误值。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值