php数据挖掘,数据挖掘概念与技术(示例代码)

本文探讨了数据预处理的重要性和方法,包括数据清理中的缺失值处理、噪声数据平滑、实体识别问题,以及数据集成以减少冗余和一致性。通过实例介绍各种填充策略和集成技术,强调准确性、完整性和一致性在数据挖掘中的关键作用。
摘要由CSDN通过智能技术生成

3.数据预处理:

在现实社会中的数据往往存在噪声数据、缺失值和不一致数据的问题。为了提高数据挖掘工作的效率和准确性,需要使用数据清理、数据集成、数据归约和数据变换等方法对数据进行预处理操作。

数据质量的三个要素是:准确性、完整性和一致性。

3.1 数据清理

数据清理试图填充缺失值、光滑噪声并识别离群点、纠正数据中的不一致。

3.1.1 缺失数据

对于缺失值,通常包含以下一些做法:

忽略元组。(该方法比较暴力,在缺失几个字段时,直接摒弃这行数据记录)

人工填写缺失值。

使用一个全局常量填充缺失值。(例如,统一替换缺失的值为NULL)

利用属性的中心度量(平均值/中位数)填充缺失值。 (例如,某位雇员的年收入字段缺失,利用所有雇员的年收入平均值后者中位数填充)

使用与给定元组同一类的所有样本的属性均值或者中位数填充。(相比4更加合理,例如雇员的职位是基础工程师,那么拿所有基础工程师的年收入均值或者中位数填充)

使用最可能的值填充。(获得最可能的值的方法,包括使用回归、贝叶斯形式化的方法基于推理工具或者决策树归纳)

3.1.2 噪声数据

噪声数据是被测量的变量的随机误差或方差。下面列举了一些“数据光滑”的技术。

1.分箱方法:

分箱方法通过考察数据的周围的值来光滑有序数据值。下边图表示了“用箱均值” 和 “用箱边界” 两种光滑手段,将有序的9个数字排序后放入3个箱子内。

20200226011933082738.png

2.回归:

用一个函数拟合数据来光滑数据。例如,线性回归是指找到拟合两个属性的最佳直线。

3.离群点分析:

通过聚类来检测离群点,一般认为,落在簇之外的点就是离群点。

3.1.3 数据清理过程

数据清理过程的第一步是偏差检测。如果进行偏差检测呢? 首先应该了解元数据信息。例如,了解某个数据属性的均值、中位数、标准差等。第2步就是数据变换(纠正偏差)了,可以使用专门的工具,或者ETL来完成转换步骤。

3.2 数据集成

数据集成式合并来自多个数据源的数据,有效的数据集成可以减少数据集的冗余和不一致问题。

1. 实体识别问题:来自多个源的的等价实体如何才能够匹配上 ?

2.

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值