//2017-05-20 13:30
这篇文章我已经欠了至少一年了,周五写记录时,本想写开始认真搞黑客,但突然发现之前的总结少了这一篇,心里实在过不去,遂补上,顺便梳理一下之前学习的总结,也了却一心愿。
数据挖掘的目标是从数据集中识别出一种或多种模式,并用所发现的模式进行分析或预测。
处理数据的过程分以下几个步骤:
1.数据清理->2.数据集成->3.数据选择->4.数据变换(前4个阶段都是预处理阶段)->5.数据挖掘->6.模式评估->7.知识表示
一切的万物都是从基石开始打好基础:
1.明白数据和它所属的属性,因为不同属性的数据,用的方案不一样。
属性有如下类型: 标称(nominal)属性,二元(binary)属性,序数(numeric)属性,离散属性,连续属性。
2.然后要明白一些对数据基本属性量度的方案:
各种均值(算数平均,加权平均),中位数,众数,方差,标准差。
3.度量数据的相似性和相异性
数据相似性和相异性又称邻近性(proximity),是一个非常非常重要的指标,数据的差异和距离都是通过这个来衡量的,以后的算法中,很多都是基于此去判断。
由于数据本身有不同的属性,所以度量它们的临近性根据数据属性不同使用不同的方法:
a.标称属性: d(i,j) = (p-m)/p
b.二元属性: Jaccard系数
c.数值属性: Minkowski distanc