一、描述性数据汇总
对于许多数据预处理任务,我们希望知道关于数据的中心趋势和离中趋势特征,中心趋势度量包括均值(mean)、众数(mode)、中位数(median)和中列数(midrange),而离中心趋势度量包括四分位数(quartiles)、四分位数极差(interquariles range,IQR)和方差(variance)。
1.度量数据的中心趋势
分布式度量、代数度量、加权算术均值或加权平均、截断均值、整体度量、众数、中列数。
2.度量数据的离散程度
1.极差、四分位数、离群点和群图
2.方差和标准差
3.基本描述数据汇总的图形显示
直方图、分位数图、分位数-分位数图或q-q图、散步图、散步图矩阵、loess曲线
二、数据清洗
1.缺失值
忽略元组、人工填写缺失值、使用一个全局常量填充缺失值、使用属性的均值填充缺失值、使用与给定元组属同一类的所有样本的属性均值、使用最可能的值填充缺失值
2.噪声数据
分箱、回归、聚类
三、数据集成和变换
数据集成合并多个数据源中的数据,存放在一个一致的数据存储(如数据仓库)中。这些数据可能包括多个数据库、数据立方体或一般文件
数据变换将数据转换或统一成适合挖掘的形式
光滑、聚集、数据泛化、规范化、数据构造(或特征构造)
四、数据规约
数据立方体聚集、属性子集选择、维度规约、数值规约、离散化和概念分层产生
属性子集选择
逐步向前选择、逐步向后删除、向前选择和向后删除的结合、决策树归纳
维度规约
小波变化和主成分分析
数值规约
回归和对数线性模型、直方图、聚类、抽样