数据挖掘是一种技术,它将传统的数据分析方法与处理大量数据的复杂算法相结合,在一个大型数据库中,自动的发现有用信息的过程,还具有预测未来观测结果的能力。数据挖掘的对象是数据,所以离开数据,挖掘无从谈起。现将我学习《数据挖掘导论》的笔记写出来,巩固一下知识。
一、数据类型。
数据对象有其它的名字,如记录,点,向量,模式,事件,案例,样本,观测或实体。
1、属性与度量
属性是对象的性质或特性,因对象而异,或随时间而变化。
测量标度是将数值或符号与对象的属性相关联的规则。
属性有四种类型:标称、序数、区间、比率。其中标称和序数属性统称分类的或定性的。区间和比率是数值的或定量的。
2、数据集的类型
数据集有三个重要的特性:维度、稀疏性、分辨率。
数据集有以下的类型:
*记录数据,包括:事务数据或购物篮数据、数据矩阵、稀疏数据矩阵。
*基于图形的数据,包括:带有对象之间联系的数据、具有图形对象的数据。
*有序数据,包括:时序数据、序列数据、时间序列数据、空间数据。
二、数据质量
1。测量和数据收集问题
测量误差和数据收集错误:
噪声和伪像:其中伪像是确定性失真,如一组照片同一地方上的条纹。
精度、偏倚和准确率:精度通常用值集合的标准差度量,而偏倚用值集合的均值与被测量的已知值之间的差度量。
离群点&#