1. 聚类分析中距离函数的有效性
聚类分析采用距离函数作为相似性测量的依据,此种方法是否有效,取决于特征向量的分布。如果向量点是一群一群出现的,同一群样本密集,不同群样远离,则方法有效。如果所有样本的向量分布成一团,那么就很难做聚类分析。
2. 聚类分析中的特征选取
做聚类分析时,选取的特征向量是否合适非常关键。例如许多不同品牌的酱油和可乐混杂放在一起,要将酱油和可乐分开来。如果以“味道”作为识别分类的特征,很容易就大道目的。如果以“颜色”作为识别分类的特征,那么就很难分别。
3. 相似性测度,距离是一种相似性的测度
(1)欧式(Euclid)距离:距离越小,越相似
D(X1, X2) = ||X1-X2||,应该注意物理量的单位,同样物理意义的量要使用同样的单位,以免单位不统一造成不同分类结果。一般使用特征数据标准化的方法,使得特征与单位无关,此时描述的是一种相对的位置关系,只要相对位置关系不变,就不会影响分类。(特征数据标准化方法是怎样的?)
(2)马氏(Maharanobis)距离:距离越小,越相似
D = [(X-M)^T] * [C^(-1)] * [(X-M],其中X为向量,M为某类模式的均值向量