算法描述
输入:包含n个对象的数据集
输出:簇的分层结构
算法步骤:
计算邻近度矩阵
每个点作为一个簇
Repeat
合并最接近的两个簇
更新邻近度矩阵
Until 仅剩下一个簇
特点
- 如果两个类被合并,那么将不能被恢复
- 不同的聚类模式都有以下一个或多个问题:
1.对噪音和异常点敏感
2.处理不同大小的簇和凸起的形状的簇比较困难
3.分割大的类
层次关键的操作是计算两个簇之间的邻近度
邻近度
最小距离
- 擅长处理非椭圆形数据
- 对噪声点异常敏感
最大距离
- 对噪声和异常点不敏感
- 倾向于划分大的簇
- 对球形的数据聚类误差明显