数据预处理

数据预处理是数据挖掘关键步骤,包括数据清理、数据集成、数据变换和数据规约。描述性数据汇总通过中心趋势和离中趋势度量展示数据概况。数据清理涉及填充缺失值、平滑噪声和识别离群点。数据集成处理不同数据源的合并,解决实体表示、属性关联和值冲突。数据规约通过数据立方体、属性子集选择等方式压缩数据规模,提升挖掘效率。
摘要由CSDN通过智能技术生成

总述:数据预处理是数据挖掘的第一步,其中遇到的问题是非常多的,不过问题主要集中在数据的规模、规范程度上。只要合理的压缩数据的规模,提高数据的规范程度,数据预处理就是非常成功有效的。

 

  1. 为什么要进行数据预处理
  2. 描述性数据汇总是怎么处理的
  3. 数据清理要怎么处理
  4. 数据集成和数据变换是怎么操作的
  5. 数据规约有哪些方法

 

1.为什么要进行数据预处理

答:数据挖掘的数据来源可能是来源于多个数据源,每个数据源中数据保存格式、字段、精度都有差别的。只有做好数据预处理才可以提升数据挖掘的处理速度、降低数据挖掘的成本,数据预处理环节是完全不可以绕过的。数据预处理的技术有数据清理、数据集成与变换、数据规约。

 

2.描述性数据汇总是怎么处理的

答:描述性数据汇总是利用中心趋势度量、数据离中趋势度量等统计学方法描述数据汇总后的基本情况。

度量数据的中心趋势可以采用的方法有算术均值、分布式度量、整体度量。算术均值是最简单的,就是对数据值集求平均数。分布式度量将数据集划分成较小的数据子集,分别计算每个子集的度量,合并并计算得出整个数据集的度量值。代数度量是可以通过应用一个代数函数于一个或多个分布度量计算的度量。加权算术均值是代数度量的一个例子,代数度量是分布式度量的一个特例。整体度量是必须对整个数据集计算的度量,中位数是整体度量的一个例子。众数反应了数据集整体中出现频率最高的数值,可能是一个,也可能是多个,它也是中心趋势度量的一个指标。

数值数据趋向于分散的程度称为数据的方差。数据离中趋势最常用的度量指标是极差、五数概括、中间四分位数极差、标准差。极差是最大值和最小值的差。

描述性数据汇总的展示图形有直方图、分位数图、散布图。

 

3.数据清理要怎么处理

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值