缺省值_数据预处理——缺省值处理

       在数据分析中,高质量的数据对于分析结果起着重要的作用。而在现实应用中,数据往往存在缺失值、重复值等情况,在使用之前需要进行预处理。通常,数据预处理没有标准的流程,对于不同的任务和数据集属性有着不同的预处理策略和要求。常用的数据预处理流程主要为:

  1.    去除唯一属性:唯一属性通常是一些id属性,这些属性并不能刻画样本自身的分布规律,所以删除这些唯一属性内容。

  2.    处理缺失值。

  3.    特征编码

  4.    数据标准化正则化:

  5.    特征选择:

  6.    主成分分析:

    流程中,特征编码、数据标准化、特征选择及主成分分析已经在文章《预测之特征工程》中进行相关介绍。本文则主要介绍数据缺失处理的一些方法。

——————★★★★★——————

      数据缺失在许多研究领域都是一个复杂的问题,数据缺省可能会造成了以下影响系统丢失了大量的有用信息、系统中所表现出的不确定性更加显著,系统中蕴涵的确定性成分更难把握,包含空值的数据会使挖掘过程陷入混乱,导致不可靠的输出。

       从数据缺省的原因来看,主要有以下几个原因:      

  • 有些信息暂时无法获取。例如非上市公司的财务情况

  • 有些信息是被遗漏的。可能是因为输入时认为不重要、忘记填写了或对数据理解错误而遗漏,也可能是由于数据采集设备的故障、存储介质的故障

  • 2
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值