博客上看到的,叫做层次聚类,但是《医学统计学》上叫系统聚类(chapter21)
思想很简单,想象成一颗倒立的树,叶节点为样本本身,根据样本之间的距离(相似系数),将最近的两样本合并到一个根节点,计算新的根节点与其他样本的距离(类间相似系数),距离最小的合为新的根节点。以此类推
对于样本X=(x1,x2,,,xm),共n个样品,m个特征,我们可以考虑两种情形聚类
R型聚类:m个特征之间的聚类,可以理解为一种降维。
Q型聚类:n个样品之间的聚类,这就是一般意义上机器学习中的系统聚类
(文中的下标i、j在R型、Q型中的含义不一样,聪明的读者自行分辨&