数据仓库与数据挖掘-数据预处理 个人笔记

声明:文中内容基于山东某高校数据挖掘课程的课件,本系列文章为课程内容的个人总结以及笔记内容。

大数据是生产资料,云计算是生产力,互联网是生产关系

数据预处理

原始数据通常存在着噪声、不一致、部分数据缺失等问题,为了达到较好的挖掘效果,有必要对这些数据进行预处理加工,从而提高数据的质量。

属性:对象的性质或特征
如眼球颜色、温度等

属性值:赋予属性的数或符号

离散属性:有限或无限可数个值
邮政编码、计数、文档集的词,常表示为整数变量

连续属性:属性值为实数
温度、高度、重量,一般用浮点变量标识

二元属性: 仅取两个不同值,常用0、1标识。是离散属性的特例。
对称的二元属性:两个值同等重要
如性别
非对称的二元属性:一个值比另一个值更重要,更重要的值通常比较少出现。通常为1.
如化验结果阴性、阳性。阳性较少但是更重要。

数据集类型:
记录、图、有序数据

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值