聚类与推荐系统:原理、方法及应用
1. 聚类方法概述
聚类是一种无监督学习方法,旨在将数据集中的样本划分为不同的组或簇,使得同一簇内的样本具有较高的相似性,而不同簇之间的样本具有较大的差异性。常见的聚类方法包括 K-means 聚类和谱聚类。
1.1 K-means 聚类
K-means 聚类是一种经典的聚类算法,它通过迭代的方式将样本分配到 K 个簇中,使得每个样本到其所属簇的质心的距离之和最小。然而,K-means 聚类隐含地假设每个簇对应于一个球形高斯分布,因此在处理非球形数据时效果可能不佳。
1.2 谱聚类
谱聚类是一种基于图论的聚类方法,它通过计算图的拉普拉斯矩阵的特征向量来进行聚类。谱聚类的基本思想是将数据点看作图中的节点,节点之间的边表示数据点之间的相似性。通过对图的拉普拉斯矩阵进行特征分解,可以得到数据的低维表示,然后使用 K-means 聚类对低维表示进行聚类。
1.2.1 谱聚类算法步骤
- 计算图的邻接矩阵 W 和度矩阵 D。
- 计算图的拉普拉斯矩阵 L = D - W。
- 对拉普拉斯矩阵 L 进行特征分解,得到其特征向量和特征值。
- 选择最小的 K 个特征向量,组成矩阵 U。
- 对矩阵 U 的每一行进行归一化处理,得到矩阵 T。
- 使用 K-means 聚类对矩阵 T 的行进行聚类,得到最终的聚类结果。
1.2.2 谱聚类示例
以图 21.19 为例,展示了 K-means 聚类和谱聚类的效
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



