聚类分析是一个迭代的过程
对于n个p维数据,我们最开始将他们分为n组
每次迭代将距离最近的两组合并成一组
若给出需要聚成k类,则迭代到k类是,停止
计算初始情况的距离矩阵一般用马氏距离或欧式距离
个人认为考试只考 1,2
比较有用的方法是3,4,5,8
最喜欢第8种
距离的计算
欧式距离
距离的二范数
马氏距离
对于X1, X2 均属于N(u, Σ)
X1,X2的距离为 (X1 - X2) / sqrt(Σ)
那么不同的聚类方法其实也就是不同的计算类间距离的方法
1.最短距离法
计算两组间距离时,将两组间距离最短的元素作为两组间的距离
2.最长距离法
将两组间最长的距离作为两组间的距离
3.中间距离法
将Gp,Gq合并成为Gr
计算Gr与Gk的距离时使用如下公式
D2kr = 1/2 * D2kp + 1/2 * D2kq + β * D2pq
β是提前给定的超参数-0.25<=β<=0
4.重心法
每一组都可以看成一组多为空间中点的集合,计算组间距离时,可使用这两组点的重心之间的距离作为类间距离
若使用的是欧氏距离
那么有如下计算公式
D2kr = np/nr * D2kp + nq/nr * D2kq - (np*nq / nr*nr ) * D2pq
5.类平均法
两组之间的距离 = 组间每两个样本距离平方的平均值开根号
表达式为D2kr = np/nr * D2kp &#