在数据分析中,高质量的数据对于分析结果起着重要的作用。而在现实应用中,数据往往存在缺失值、重复值等情况,在使用之前需要进行预处理。通常,数据预处理没有标准的流程,对于不同的任务和数据集属性有着不同的预处理策略和要求。常用的数据预处理流程主要为:
去除唯一属性:唯一属性通常是一些id属性,这些属性并不能刻画样本自身的分布规律,所以删除这些唯一属性内容。
处理缺失值。
特征编码
数据标准化正则化:
特征选择:
主成分分析:
流程中,特征编码、数据标准化、特征选择及主成分分析已经在文章《预测之特征工程》中进行相关介绍。本文则主要介绍数据缺失处理的一些方法。
——————★★★★★——————
数据缺失在许多研究领域都是一个复杂的问题,数据缺省可能会造成了以下影响系统丢失了大量的有用信息、系统中所表现出的不确定性更加显著,系统中蕴涵的确定性成分更难把握,包含空值的数据会使挖掘过程陷入混乱,导致不可靠的输出。
从数据缺省的原因来看,主要有以下几个原因:
有些信息暂时无法获取。例如非上市公司的财务情况
有些信息是被遗漏的。可能是因为输入时认为不重要、忘记填写了或对数据理解错误而遗漏,也可能是由于数据采集设备的故障、存储介质的故障