what is Clustering ?
聚类是一种统计技术,它适用于非监督学习,在数据中创建分组;
与不同集群中的对象相比,同一集群中的对象之间的相似性更大;
应用场景:
- 客户偏好
- 基因功能预测
- 个体化用药
- ......
Hierarchical Clustering (分层/层次聚类)
- 分层聚类首先将每个观测数据放到单独的集群中。
- 它检查了所有观测值之间的所有距离 (这个距离可以由不同的算法计算出来,比如欧里几何距离和曼哈顿距离),并将两个最近的观测值配对,形成一个新簇团。
- 这个过程不断重复,直到出现一个集群为止。
一个例子:
按照层级聚类,下图种 1-8 八个点将会按照如下顺序分类。
可视分层聚类模型 (树状图)如下: