【读书笔记】数据挖掘导论(Introduction to Data Mining) 1

第二章 数据


2-1 数据类型

  1. 如下性质来描述属性
    (1) 相异性 = 和 ≠
    (2) 序 <, <=, >, >=
    (3) 加法
    (4) 乘法

  2. 从而定义四种类型 :标称,序数,区间,比率
    标称:分类的(定性的)(= 和 ≠) 区分对象 如id等
    序数:分类的 (< , >)如矿石硬度等
    区间:定量的 (+, -) 值间差异有意义,如温度
    比率:定量的 (*, /)

  3. 数据集的一般特性
    维度 dimensionality:数据集中对象的属性数量,维度过高的会出现维灾难,从而在数据预处理中一般会对其进行降维处理,称为 维归约;
    稀疏性 sparsity:对象的部分属性值为0
    分辨率 resolution:不同分别率下获取的数据表现出来的性质不一样。

2-2 数据质量

  1. 数据测量和收集方面的质量问题

    1. 测量误差和数据收集错误
    2. 噪声和伪像
      1. 噪声:常可用信号或图像技术降低
      2. 伪像:确定性的失真,一组照片中同一个位置出现条纹
    3. 精度,偏倚,准确率
      精度:重复测量值之间的接近程度 通常用
  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值