做系统聚类时,spss 提供了好几种定义类距离的方法,其中,组间连接(between groups)就是教科书中的类平均法。
组内连接(within groups)一直没找到定义,用谷歌搜索了下,终于找到了一个资料:http://www.norusis.com/pdf/SPC_v13.pdf
组内连接的意思是:两个类中所有样品两两之间的距离平方和的均值。而组间连接只计算不同类中样品的距离,同类中样品之间的距离就不计算了。
假如有两个类 A 和 B,A 中包括样品 (1, 2),B 中包括样品(3, 4,5)。
若是组间连接,计算的距离有:(1,3),(1,4),(1,5),(2,3)(2,4),(2,5),然后取他们的平方和均值作为两类之间的距离。
若是组内连接,计算的距离有:(1,3),(1,4),(1,5),(2,3)(2,4),(2,5),(1,2),(3,4),(3,5),(4, 5)。然后取他们的平方和均值作为两类之间的距离。
可见,组内连接计算的更多。