- 数据类型:定量、定性
- 属性是对象的性质、特征,测量标度是将数值或符号值与对象的属性相关联的规则(函数)
- 属性类型:属性的性质不必与用来度量他的值的性质相同
- 属性的不同:相异性、序、加法、乘法
- 四种属性类型:标称和序数(分类的、定性的)、区间和比率(数值的、定量的);非对称属性:如果属性值具有相同的权重,则为对称的;反之,为非对称的
- 数据集的类型:
- 数据集的特征:维度、稀疏性、分辨率
- 记录数据:事务数据或购物篮数据、数据矩阵、稀疏数据矩阵
- 基于图形的数据
- 有序数据:时序数据、序列数据、时间序列数据(考虑时间自相关,时间接近数据接近)、空间数据
- 数据质量
- 数据清洗:测量误差与数据收集误差、噪声、伪像(确定的错误的结果)
- 精度、标准差
- 偏倚:样本与总体参数之差
- 精确度:测量值与实际值之间的接近度
- 离群点:不同于噪音,本身是合法的,有时作为研究对象
- 遗漏值
- 不一致的值
- 重复数据:去重复
- 关于应用:数据的时效性、相关性(是否包含了足够的信息,抽样偏倚)、关于数据的说明文档
- 聚集:将多个对象合并为单个对象;定量属性求和或平均值聚集,定性属性可以忽略或汇总成一个集合;聚集可以归纳成小数据集,算法开销小;