数据相关知识总结

数据挖掘中的数据我们不叫它数据,而是把它叫做数据对象数据集,联想一下你的购物单,数据对象就是一行一行的物品信息,而所有行数据对象构成数据集。

数据对象具有价值,这里的数据对象通常是使用多个属性来描述的数据,就像一个人有四肢和头组成一样。属性是数据存在的依托。

有了属性,属性天生多样,所以为了方便需要对其划分类型:标称、序数、区间、比率(按照相异性、序、加法、乘法是否有意义区分,当然划分的方法也不只有这一种,还有离散与连续,对称与非对称等等)。前两个(标称、序数)统称为定性的属性或分类的,而后两个称为定量的或数值的。

数据对象组成数据集,数据集同样有它的属性(我们不叫它属性,叫它特性),它具有维度、稀疏性、分辨率三者。

数据集也有它的类型,当然它是由数据对象组成,所以它的类型与数据对象有关:

  • 如果数据对象是一条条记录,每个记录包含固定的属性集,数据集是记录的集合,这就是记录数据
  • 如果数据对象具有结构,这样的对象用图表示,则就是基于图形的数据
  • 如果数据对象的属性,具有涉及空间或时间序的联系,则可以成为有序数据

数据作为构造模型的原材料,质量问题必然很关键。
谈到数据质量,就要谈一谈数据可能会有哪些误差,以及如何测量数据的质量
我们必须要知道,收集数据的过程中会出现问题的环节是很多的

  • 测量时的误差——测量误差
  • 数据收集时的误差——数据收集误差
  • 硬件故障等难以解释导致出现的无意义数据,会干扰数据分析
  • 伪像,确定性的失真

另外还有一些最后显得不一样的数据。

  • 离群点 异类,但是有时也是宝藏, 具有不同于其他大部分数据对象的数据特征。
  • 遗漏值,与其他数据对象相比遗漏了一个或多个属性。解决方法
  1. 删除数据对象或属性,直接删,不废话
  2. 估计遗漏值,缝缝补补再用用
  3. 在分析时忽略遗漏值,选择性跳过
  • 不一致的值,很突兀,明显违背常理。
  • 重复的值。
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值