第二章 相似性和相异性度量&数据&数据预处理

  1. 数据类型:定量、定性
  2. 属性是对象的性质、特征,测量标度是将数值或符号值与对象的属性相关联的规则(函数)
  3. 属性类型:属性的性质不必与用来度量他的值的性质相同
  4. 属性的不同:相异性、序、加法、乘法
  5. 四种属性类型:标称和序数(分类的、定性的)、区间和比率(数值的、定量的);非对称属性:如果属性值具有相同的权重,则为对称的;反之,为非对称的
  6. 数据集的类型:
    1. 数据集的特征:维度、稀疏性、分辨率
    2. 记录数据:事务数据或购物篮数据、数据矩阵、稀疏数据矩阵
    3. 基于图形的数据
    4. 有序数据:时序数据、序列数据、时间序列数据(考虑时间自相关,时间接近数据接近)、空间数据
  7. 数据质量
    1. 数据清洗:测量误差与数据收集误差、噪声、伪像(确定的错误的结果)
    2. 精度、标准差
    3. 偏倚:样本与总体参数之差
    4. 精确度:测量值与实际值之间的接近度
    5. 离群点:不同于噪音,本身是合法的,有时作为研究对象
    6. 遗漏值
    7. 不一致的值
    8. 重复数据:去重复
  8. 关于应用:数据的时效性、相关性(是否包含了足够的信息,抽样偏倚)、关于数据的说明文档
  1. 聚集:将多个对象合并为单个对象;定量属性求和或平均值聚集,定性属性可以忽略或汇总成一个集合;聚集可以归纳成小数据集,算法开销小;
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值