(一)数据对象、属性
数据集由数据对象组成。一个数据对象代表一个实体。属性是一个数据字段,表示数据对象的一个特征。
可以用多种方法组织属性类型:
1.标称属性(相当于枚举类型)、序数属性、数值属性。
2.离散属性、连续属性
(二)数据描述
1.中心趋势度量:均值、中位数、众数、中列数
2.离散趋势度量:方差、标准差、分位数、分位数极差
(三)数据预处理
1.为什么要进行数据预处理
现实世界中数据往往存在以下问题:
- 不完整的:有感兴趣的属性缺少属性值
- 含噪声的:包含错误或“孤立点”
- 不一致的:在命名或编码上存在差异
2.数据预处理包括哪些工作
- 数据清理。数据清理包括填写缺失值、平滑噪声数据、识别和删除孤立点。
噪声的处理方法:分箱,将数据分箱,对箱中数据用均值、中位数或箱边界进行光滑。回归,用一个函数拟合数据,达到光滑数据的效果。
识别离群点:通过聚类方法把数据划分为簇,落在簇之外的就是离群点。
- 数据集成。将来自多个数据库的数据集成在一起。
- 数据变换。对数据进行规范化等。
规范化方法一 ——最小-最大(min-max)规范化
最小-最大规范化保持原有数据之间的联系。如果今后的输入落在A的原始数据值域之外,该方法将面临“越界错误”。
规范化方法二——z-score规范化
也叫标准差标准化,经过处理的数据符合标准正态分布,即均值为0,标准差为1。
当属性f的实际最大和最小值未知,或异常点左右了最小-最大规范化时,该方法是有用的。
规范化方法三——小数定标规范化
小数定标规范化通过移动属性A 的小数点位置进行规范化。
- 数据规约。对数据进行精简,但仍保持或接近于保持数据的完整性。
数据归约策略
a) 数据立方体聚集
b) 维归约:通过删除不相干的属性或维减少数据量。维规约的方法包括小波变换和主成分分析。
c) 数据压缩:用数据编码或者变换得到原始数据的压缩表示。典型的有主成分分析
d) 数值归约
e) 离散化和概念分层
3.距离与相似性度量
数据之间的相似性度量
(1)常用距离函数:
欧式(Euclidean)距离、曼哈顿(Manhattan)距离、切比雪夫距离等。
(2) 二值属性数据距离度量
二值属性变量(binary variable)只有两种状态:0或1,表示属性的存在与否。一种差异计算方法就是根据二值数据值的计数,计算二值属性的距离。