文章目录
参考资料
《机器学习》——周志华
1. 聚类任务
(1)目的
聚类试图将样本划分为若干通常不相交的子集。
(2)符号描述
- 假定样本集 D = { x 1 , x 2 , ⋯ , x m } D=\{x_1,x_2,\cdots,x_m\} D={ x1,x2,⋯,xm}包含m个样本。
- 每个样本 x i = { x i 1 , x i , 2 , ⋯ , x i , n } x_i=\{x_{i1},x_{i,2},\cdots,x_{i,n}\} xi={ xi1,xi,2,⋯,xi,n}是一个n维特征向量。
- 样本被划分为k个不相交的簇 { C l ∣ l = 1 , 2 , ⋯ , k } \{C_l|l=1,2,\cdots,k\} {
Cl∣l=1,2,⋯,k}。我们用 λ j ∈ { 1 , 2 , ⋯ , k } \lambda_j \in \{1,2,\cdots,k\} λj∈{
1,2,⋯,k}表示样本 x j x_j xj的簇标记。
因此: x j ∈ C λ j x_j \in C_{\lambda_j} xj∈Cλj - 聚类结果可以用m个元素的簇标记向量 λ = { λ 1 , λ 2 , ⋯ , λ m } \lambda = \{\lambda_1,\lambda_2,\cdots,\lambda_m\} λ={ λ1,λ2,⋯,λm}表示
2. 性能度量
(1)目的
- 正如其名,性能度量能够评估聚类效果的好坏。簇内相似度高、簇间相似度低。
- 可以将使用的性能度量作为聚类过程的优化目标。
根据是否需要参考模型,可以将指标分为外部指标(external index)和内部指标(internal index)。
2.1 外部指标
标准: 准确率(贴合情况)
对数据集 D = { x 1 , x 2 , ⋯ , x m } D=\{x_1,x_2,\cdots,x_m\} D={ x1,x2,⋯,xm}通过聚类给回的簇划分为 C = { C 1 , C 2 , ⋯ , C k } C=\{C_1,C_2,\cdots,C_k\} C={ C1,C2,⋯,Ck},参考模型给出的簇划分为 C ∗ = { C 1 ∗ , C 2 ∗ , ⋯ , C s ∗ } C^*=\{C^*_1,C^*_2,\cdots,C^*_s\} C∗={ C1∗,