总述:数据预处理是数据挖掘的第一步,其中遇到的问题是非常多的,不过问题主要集中在数据的规模、规范程度上。只要合理的压缩数据的规模,提高数据的规范程度,数据预处理就是非常成功有效的。
- 为什么要进行数据预处理
- 描述性数据汇总是怎么处理的
- 数据清理要怎么处理
- 数据集成和数据变换是怎么操作的
- 数据规约有哪些方法
1.为什么要进行数据预处理
答:数据挖掘的数据来源可能是来源于多个数据源,每个数据源中数据保存格式、字段、精度都有差别的。只有做好数据预处理才可以提升数据挖掘的处理速度、降低数据挖掘的成本,数据预处理环节是完全不可以绕过的。数据预处理的技术有数据清理、数据集成与变换、数据规约。
2.描述性数据汇总是怎么处理的
答:描述性数据汇总是利用中心趋势度量、数据离中趋势度量等统计学方法描述数据汇总后的基本情况。
度量数据的中心趋势可以采用的方法有算术均值、分布式度量、整体度量。算术均值是最简单的,就是对数据值集求平均数。分布式度量将数据集划分成较小的数据子集,分别计算每个子集的度量,合并并计算得出整个数据集的度量值。代数度量是可以通过应用一个代数函数于一个或多个分布度量计算的度量。加权算术均值是代数度量的一个例子,代数度量是分布式度量的一个特例。整体度量是必须对整个数据集计算的度量,中位数是整体度量的一个例子。众数反应了数据集整体中出现频率最高的数值,可能是一个,也可能是多个,它也是中心趋势度量的一个指标。
数值数据趋向于分散的程度称为数据的方差。数据离中趋势最常用的度量指标是极差、五数概括、中间四分位数极差、标准差。极差是最大值和最小值的差。
描述性数据汇总的展示图形有直方图、分位数图、散布图。
3.数据清理要怎么处理