声明:文中内容基于山东某高校数据挖掘课程的课件,本系列文章为课程内容的个人总结以及笔记内容。
大数据是生产资料,云计算是生产力,互联网是生产关系
数据预处理
原始数据通常存在着噪声、不一致、部分数据缺失等问题,为了达到较好的挖掘效果,有必要对这些数据进行预处理加工,从而提高数据的质量。
属性:对象的性质或特征
如眼球颜色、温度等
属性值:赋予属性的数或符号
离散属性:有限或无限可数个值
邮政编码、计数、文档集的词,常表示为整数变量
连续属性:属性值为实数
温度、高度、重量,一般用浮点变量标识
二元属性: 仅取两个不同值,常用0、1标识。是离散属性的特例。
对称的二元属性:两个值同等重要
如性别
非对称的二元属性:一个值比另一个值更重要,更重要的值通常比较少出现。通常为1.
如化验结果阴性、阳性。阳性较少但是更重要。
数据集类型:
记录、图、有序数据