【数据挖掘·简读】02 数据

在这里插入图片描述
数据集的一般特性

  • 维度:数据集中的对象具有的属性数目。常涉及”维灾难“和”维归约“问题。
  • 稀疏性:非对称特征数据集,一个对象的大部分属性值都为0。只存储与处理非零值。
  • 分辨率 :不同分辨率下数据性质不同。

数据挖掘的任务常假定数据集是记录的汇集,每个记录包含固定的数据字段(属性)集。

记录数据

事务数据:是一种特殊类型的记录数据,其中每个记录(事务)设计一个项的集合。如,一次购物购买的商品的集合构成一个事务。购买的商品是项。

稀疏数据矩阵:稀疏数据矩阵是数据矩阵的一种特殊情况,其中属性的类型相同并且是非对称的,即只有非零值才是重要的。
如文档-词矩阵(document-term matrix),每个词是向量的一个分量(属性),而每个分量的值时对应词在文档中出现的次数。

有序数据

包含:

  • 时序数据

  • 基因组序列数据

  • 温度时间序列数据

  • 空间温度数据

数据质量

主要关注的数据质量问题是检测和纠正(或:数据清理)。会涉及到一些术语:

  • 测量误差:测量过程导致的问题

  • 误差:测量值减去实际值

  • 噪声:测量误差的随机部分,通常用于包含时、空的数据,可使用信号或图像处理技术进行降噪。

  • 鲁棒算法:即使存在噪声也能产生可接受的结果。

  • 伪像:数据确定性 的失真。

  • 精度:重复测量之间的封闭性;

  • 偏倚:测量与被测量之间的系统变量;

  • 准确率:被测量的测量值与实际值之间的接近度;

  • 离群点(异常点):具有不同于数据集中其他大部分数据对象的特征的数据对象或相对于该属性的典型值不寻常的属性值。

数据预处理

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

编程轨迹_

期望和你分享一杯咖啡

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值