插值法补齐缺失数据_机器学习(三):数据预处理--数据预处理的基本方法

数据预处理的方法主要包括去除唯一属性、处理缺失值、属性编码、数据标准化正则化、特征选择、主成分分析等,这篇文章将会全面地总结数据预处理的基本方法。

一、去除唯一属性

唯一属性通常是一些id属性,这些属性并不能刻画样本自身的分布规律,所以简单地删除这些属性即可。

二、缺失值处理

(一)缺失值的分类

完全随机缺失:指的是数据的缺失是完全随机的;
随机缺失:指的是数据的缺失不是完全随机的,和完全变量有关;
完全不随机缺失:指的是数据的缺失与不完全变量自身的取值相关; 缺失值会使得系统丢失了大量的有用信息,系统所表现出来的不确定性更加显著,系统中蕴含的确定性成分更难把握,包含空值的不完全变量会使得挖掘过程陷入混乱。

(二)缺失值处理的三种方法

直接使用含有缺失值的特征;删除含有缺失值的特征(该方法在包含缺失值的属性含有大量缺失值而仅仅包含极少量有效值时是有效的);缺失值补全。 删除含有缺失值的特征:若变量的缺失率较高(大于80%),覆盖率较低,且重要性较低,可以直接将变量删除。 (1)均值插补。数据的属性分为定距型和非定距型。如果缺失值是定距型的,就以该属性存在值的平均值来插补缺失的值;如果缺失值是非定距型的,就根据统计学中的众数原理,用该属性的众数(即出现频率最高的值)来补齐缺失的值。
Ps : 定距型数据--数据的中间级,用数字表示个体在某个有序状态中所处的位置,不能做四则运算。例如,“受教育程度”,文盲半文盲=1,小学=2,初中=3,高中=4,大学=5,硕士研究生=6,博士及其以上=7。 (2)利用同类均值插补。同均值插补的方法都属于单值插补,不同的是,它用层次聚类模型预测缺失变量的类型,再以该类型的均值插补。假设X=(X1,X2…Xp)为信息完全的变量,Y为存在缺失值的变量,那么首先对X或其子集行聚类,然后按缺失个案所属类来插补不同类的均值。如果在以后统计分析中还需以引入的解释变量和Y做分析,那么这种插补方法将在模型中引入自相关,给分析造成障碍。 (3)极大似然估计(Max Likelihood ,ML)。在缺失类型为随机缺失的条件下,假设模型对于完整的样本是正确的,那么通过观测数据的边际分布可以对未知参数进行极大似然估计(Little and Rubin)。这种方法也被称为忽略缺失值的极大似然估计,对于极大似然的参数估计实际中常采用的计算方法是期望值最大化(Expectation Maximization,EM)。该方法比删除个案和单值插补更有吸引力,它一个重要前提:适用于大样本。有效样本的数量足够以保证ML估计值是渐近无偏的并服从正态分布。但是这种方法可能会陷入局部极值,收敛速度也不是很快,并且计算很复杂。 (4)多重插补(Multiple Imputation,MI)。多值插补的思想来源于贝叶斯估计,认为待插补的值是随机的,它的值来自于已观测到的值。具体实践上通常是估计出待插补的值,然后再加上不同的噪声,形成多组可选插补值。根据某种选择依据,选取最合适的插补值。
多重插补方法分为三个步骤:①为每个空值产生一套可能的插补值,这些值反映了无响应模型的不确定性;每个值都可以被用来插补数据集中的缺失值,产生若干个完整数据集合。②每个插补数据集合都用针对完整数据集的统计方法进行统计分析。③对来自各个插补数据集的结果,根据评分函数进行选择,产生最终的插补值。
假设一组数据,包括三个变量Y1,Y2,Y3,它们的联合分布为正态分布,将这组数据处理成三组&#
  • 0
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
机器学习中,数据预处理是非常重要的一步。其中,处理缺失数据预处理的一项重要任务。是一种常用的处理缺失方法。它通过利用已有数据的信息,对缺失进行估计或预测,从而填缺失。以下是一些常用的: 1. 均是一种常用的,它通过计算非缺失的平均来填缺失。这种方法对于连续变量非常有效,但对于分类变量不是很适用。 2. 中位数 中位数类似于均,但是使用的是中位数。这种方法对于连续变量非常有效,并且相对于均更稳健,因为它受到极端的影响较小。 3. 众数 众数是用于分类变量的一种。它通过计算非缺失的众数来填缺失。这种方法对于分类变量非常有效,并且相对于均和中位数更稳健。 4. 回归 回归是一种基于回归分析的。它通过使用非缺失来建立一个回归模型,然后使用模型来预测缺失。这种方法对于连续变量非常有效,并且可以使用各种回归算,如线性回归、多项式回归和决策树回归等。 5. K近邻 K近邻是一种基于相似性的。它通过查找与缺失最接近的K个非缺失来预测缺失。这种方法对于连续变量和分类变量都很有效,并且可以使用各种距离度量方法,如欧氏距离、曼哈顿距离和余弦相似度等。 需要注意的是,只是一种处理缺失方法,它并不能保证预测的缺失是准确的。因此,在使用处理缺失时,需要进行适当的评估和验证。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值