距离定义不同,聚类结果不同
聚类分析中,距离有两种定义方式,即:
- 依据远近:即距离的远近程度,远即距离远,近即距离近;
-
依据相似程度:即相似程度低为距离远,相似程度高为距离近
相同的聚类分析中,距离的定义方式不同,得到的聚类结果也会不同,实际的数据分析工作中,为了便于解释结果,我更喜欢使用相似程度去定义聚类分析中的距离。
聚类分析中的坑
如下为聚类分析过程中尤其要注意的点:
- X间不可相关
回归模型中自变量间不能具有相关性,同样,聚类分析中的自变量间也不可以相关,其实,聚类分析中对自变量相关性的把控比回归模型还要严格;
-
剔除量纲
聚类分析前需要剔除量纲的影响;
-
正态分布
由于聚类分析的结果不稳定,导致聚类分析非常脆弱,对于数据分布非常敏感,所以,聚类分析前需要精确的探索数据分布。快速聚类有一个基本假定,即参加聚类分析的变量必须服从正态分布,如果是非正态分布,则只能使用非参聚类去进行聚类的分析;