谱聚类(Spectral Clustering) - 原理与代码实例讲解
1. 背景介绍
1.1 聚类分析概述
1.1.1 聚类的定义与目的
聚类分析是一种无监督学习方法,旨在将数据集划分为若干个子集,使得同一子集内的数据点相似度较高,而不同子集间的数据点相似度较低。聚类可以帮助我们发现数据内在的结构和模式,广泛应用于模式识别、数据挖掘、图像分割等领域。
1.1.2 常见的聚类算法
目前已有多种聚类算法被提出,如 K-means、层次聚类、DBSCAN 等。这些算法各有优缺点,适用于不同类型的数据和场景。其中,谱聚类以其独特的图论视角和优异的性能而备受关注。
1.2 谱聚类的起源与发展
谱聚类最早由 Jianbo Shi 和 Jitendra Malik 在2000年提出[1],他们将图分割问题转化为图的最优划分问题,并用图的拉普拉斯矩阵的特征向量求解。此后,谱聚类被不断改进和推广,成为一种强大的聚类工具。
2. 核心概念与联系
2.1 图的相关概念
2.1.1 无向加权图
谱聚类基于图论,将数据集表示为一个无向加权图 $G=(V,E)$。其中,顶点集 $V$ 表示数据点,边集 $E$ 表示数据点间的相似度,边的