数据挖掘中,如何进行数据的缺失值填充

https://blog.csdn.net/weixin_42144636/article/details/81584372

https://www.cnblogs.com/jiaxin359/p/8594640.html

早期,国内外学者的研究采用传统的基于统计学的方法。近年来,基于机器的学习方法成为研究的热点,研究的侧重点主要是数据缺失在预处理阶段的填充。前期研究过于强调数据填充的质量问题,而忽视了在保证质量同时的效率问题,从而使其在实际应用中遇到诸多瓶颈。

1 稀疏数据缺失值填充
不同领域对数据缺失度的定义有所差别,本文面向的是稀疏数据集的缺失值,为了避免混淆,采用数据集的稀疏度来描述数据缺失度。稀疏度(Sparsity)是指数据集中所有非缺失单元的数目占总单元数目的比例。数据集越稀疏,其稀疏度数值越小,相应的缺失度数值就越大,一般认为稀疏度在0.5以下的称为稀疏数据集[8]。

实际应用中造成数据缺失的原因主要有:(1)信息暂时无法获取;(2)信息被遗漏;(3)对象的某个或某些属性不可用;(4)信息被忽视;(5)获取信息的代价太大;(6)系统实时性能要求较高等[9]。为保证数据的完整性和数据挖掘的可靠性,通常要对缺失值进行适当的处理。从策略角度,缺失数据处理方式可以分为两种类型:

(1)预处理类型:缺失数据的数据预处理与数据挖掘独立分步进行,在数据挖掘任务前对缺失数据采用各种有效手段进行处理,如识别噪声数据并进行丢弃、通过分析预测对缺损数据进行虚拟填补等。包括线性回归法(Linear regression)、相同标准差替换法(Replacement under same standard deviation)、平均值法(Mean-mode method)、近邻估计法(Nearest neighbor estimator)、自联想神经网络法(Auto associative neural network)、决策树填充法(Decision tree imputation)等。

(2)嵌入式类型:将缺失数据的预处理与数据挖掘看作一个整体,将预处理过程嵌入到数据挖掘任务中,相互促进,相互迭代反馈,力求寻优过程。在稀疏数据缺失值填充过程中,由于数据缺损巨大,使得数据信息量严重匮乏,若采用常规的聚类算法直接进行聚类处理,效果无法令人满意。因此,将缺失数据的预处理步骤嵌入到聚类过程中可以在一定程度上有效解决这一实际问题。包括个案删除法(Case-wise deletion)、懒决策树法(Lazy decision tree)、动态路径生成法(Dynamic path generation)等[10]。本方法摒弃了传统统计学方法在处理缺失数据时需要基于概率分布等一些统计学假设条件的局限和复杂的建模过程,将数据填充步骤嵌入到数据聚类过程中,并改进了FCM聚类算法以适应稀疏数据聚类。

参考:
papper :一种基于模糊C均值聚类的稀疏数据缺失值填充方法-张楷卉,李鹏

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

椒椒。

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值