第二章 数据
2-1 数据类型
如下性质来描述属性
(1) 相异性 = 和 ≠
(2) 序 <, <=, >, >=
(3) 加法
(4) 乘法从而定义四种类型 :标称,序数,区间,比率
标称:分类的(定性的)(= 和 ≠) 区分对象 如id等
序数:分类的 (< , >)如矿石硬度等
区间:定量的 (+, -) 值间差异有意义,如温度
比率:定量的 (*, /)数据集的一般特性
维度 dimensionality:数据集中对象的属性数量,维度过高的会出现维灾难,从而在数据预处理中一般会对其进行降维处理,称为 维归约;
稀疏性 sparsity:对象的部分属性值为0
分辨率 resolution:不同分别率下获取的数据表现出来的性质不一样。
2-2 数据质量
数据测量和收集方面的质量问题
- 测量误差和数据收集错误
- 噪声和伪像
- 噪声:常可用信号或图像技术降低
- 伪像:确定性的失真,一组照片中同一个位置出现条纹
- 精度,偏倚,准确率
精度:重复测量值之间的接近程度 通常用