数据挖掘中的数据我们不叫它数据,而是把它叫做数据对象和数据集,联想一下你的购物单,数据对象就是一行一行的物品信息,而所有行数据对象构成数据集。
数据对象具有价值,这里的数据对象通常是使用多个属性来描述的数据,就像一个人有四肢和头组成一样。属性是数据存在的依托。
有了属性,属性天生多样,所以为了方便需要对其划分类型:标称、序数、区间、比率(按照相异性、序、加法、乘法是否有意义区分,当然划分的方法也不只有这一种,还有离散与连续,对称与非对称等等)。前两个(标称、序数)统称为定性的属性或分类的,而后两个称为定量的或数值的。
数据对象组成数据集,数据集同样有它的属性(我们不叫它属性,叫它特性),它具有维度、稀疏性、分辨率三者。
数据集也有它的类型,当然它是由数据对象组成,所以它的类型与数据对象有关:
- 如果数据对象是一条条记录,每个记录包含固定的属性集,数据集是记录的集合,这就是记录数据。
- 如果数据对象具有结构,这样的对象用图表示,则就是基于图形的数据。
- 如果数据对象的属性,具有涉及空间或时间序的联系,则可以成为有序数据。
数据作为构造模型的原材料,质量问题必然很关键。
谈到数据质量,就要谈一谈数据可能会有哪些误差,以及如何测量数据的质量。
我们必须要知道,收集数据的过程中会出现问题的环节是很多的
- 测量时的误差——测量误差
- 数据收集时的误差——数据收集误差
- 硬件故障等难以解释导致出现的无意义数据,会干扰数据分析
- 伪像,确定性的失真
另外还有一些最后显得不一样的数据。
- 离群点 异类,但是有时也是宝藏, 具有不同于其他大部分数据对象的数据特征。
- 遗漏值,与其他数据对象相比遗漏了一个或多个属性。解决方法
- 删除数据对象或属性,直接删,不废话
- 估计遗漏值,缝缝补补再用用
- 在分析时忽略遗漏值,选择性跳过
- 不一致的值,很突兀,明显违背常理。
- 重复的值。