1.异常值是什么?请列举1种识别连续型变量异常值的方法?
异常值(outlier)是指样本中的个别值,其数值明显偏离所属样本的其余观测值。在数理统计中一般是指一组观测值中与平均值的偏差超过两倍标准差的测定值。
Grubbs' test,又叫maximumnormed residual test,是一种用于 单变量数据集异常值识别的统计检测,它假定数据集来自正态分布的总体。
未知总体标准差σ,在五种检验法中,优劣次序为:t检验法,格拉布斯检验法,峰度检验法,狄克逊检验法,偏度检验法。
2.什么是聚类分析?聚类算法有哪几种?请选择一种详细描述其计算原理和步骤。
聚类分析是一组将研究对象分为相同质的群组的统计分析技术。聚类分析也叫分类分析或者数值分类。
聚类与分类的不同在于,聚类所要求划分的类是未知的。
聚类分析算法主要有:层次的方法,划分方法,基于密度的方法,基于网格的方法,基于模型的方法等。其中,前两种算法是利用统计学定义的距离进行度量。
K-means算法的工作过程主要如下说明:首先从N个数据对象任意选择K个对象作为初始聚类中心,而对于所剩下其他对象,则根据他们与这些聚类中心的相似度(距离),分别将他们分配给与其最相似的(聚类中心所代表的)聚类;然后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值);不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数。
k个聚类具有以下特点:各聚类本身尽可能的紧凑,而各聚类之间尽可能的分开。
优点:本算法确定K个划分到达平方误差最小。当聚类是密集的,且类与类之间区别明显时,效果较好。对于处理大数据集,这个算法是相对可伸缩和高效的,计算的复杂度为O(NKt),其中N是数据对象的数目,t是迭代的次数。一般来说k<<N,t<<N。
3.数据挖掘对聚类的数据要求是什么?
(1)可伸缩性
(2)处理不同类型属性的能力
(3)发现任意形状的聚类
(4)使输入参数的领域知识最小化
(5)查理噪声数据的能力
(6)对于输入顺序不敏感
(7)高维性
(8)基于约束的聚类
(9)可解释性和可利用性