精通数据科学笔记非监督学习

最新推荐文章于 2024-01-12 09:42:28 发布

techfei

最新推荐文章于 2024-01-12 09:42:28 发布

阅读量243

点赞数

本文链接：https://blog.csdn.net/techfei/article/details/100580891

版权

本文介绍了聚类算法如K-means、混合高斯模型、谱聚类及降维技术如PCA、SVD在数据处理中的应用。讨论了算法原理、实现及评估方法，包括如何选择聚类个数、降维作用及应用场景。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

聚类

K-means：数据间的欧氏距离度量相似性，用EM算法求解，要求数据各向均质，类别里方差相近

混合高斯模型：用椭圆分类，K-means是混合高斯的特殊情况

谱聚类：可以处理流线型的数据，是对向量化的邻接矩阵求特征向量，然后进行聚类

降维

PCA：线性PCA和kernelPCA，找最佳降维向量，保留最多的信息

SVD(截断奇异值分解）：通过矩阵分解进行降维，常用于潜在语义分析和推荐系统

K-means

模型原理

模型的两个假设

数据均质
类别里方差大致相同

数据之间的相似度与它们欧氏距离成反比，直观上看，K-means聚类是用圆圈住数据，模型损失函数为

$L=\sum_{j=1}^{k}\sum_{i=1}^{n}(X_{i}-\mu _{j})^{2}1_{\left \{ t_{i}=j \right \}}$

$\hat{t_{i}}=argmin_{t_{i}}L$

收敛过程

K-means损失函数中有两类参数，一类是每个数据的类别 $\left \{ t_{i} \right \}$ ,另一类是类别中心 $\left \{ \mu _{i} \right \}$ ,这两类参数相互依存，用EM算法求解，步骤如下：

首先随机生成k个聚类中心
根据已有的聚类中心，将数据分k类（E step）
根据分类结果，重新计算每个聚类的聚类中心（M step）
重复进行这两个步骤，直到聚类中心收敛（聚类中心不再移动）

K-means模型结果不稳定，通常会反复多次使用同一批数据训练模型，并从中选择效果较好的模型参数（其他机器学习模型参数不稳定也是类似的解决方法）

如何选择聚类个数

elbow method：当聚类个数小于真实的类别个数时，聚类结果的误差平方和会下降很快，但是当聚类个数超过真实值时，误差平方和下降速度明显减缓。

silhouette analysis：轮廓分析，其思路是计算聚类中心在多大程度上代表这个类别里所有数据

应用示例

异常检测：从聚类中心里找出明显区别于正常数据的异常值

图像压缩：用聚类中心代替原始像素点

混合高斯模型

原理

当数据有标签时，混合高斯模型就是二次判别分析(QDA)，当数据无标签时，是混合高斯模型(GMM)

GMM的参数： $\theta _{i},\mu _{i},\Sigma _{i}$

聚类结果： $y_{i}$

混合高斯模型是生成式模型，它的参数估算方法是最大期望算法EM，参数估算原则是最大似然估计(M step)。

如果已知模型参数，聚类结果可以由最大后验概率得到(E step)。

模型实现

def trainModel(data, clusterNum):
    """
    使用混合高斯对数据进行聚类
    """
    model = GaussianMixture(n_components=clusterNum, covariance_type="full")
    model.fit(data)
    return model

定义评估混合高斯模型的技术指标为：BIC（Bayesian information criterion）

$BIC=k\cdot \ln n-2\ln L$

其中，n是数据个数，L 是损失函数，k是聚类个数

BIC值最小的聚类个数最优

谱聚类

向量化：用向量有效表示连通图节点

定义邻接矩阵：利用高斯核函数定义节点之间边的权重 $a_{i,j}=e^{-gamma\left \| X_{i}-X_{j} \right \|}^{2}$
在邻接矩阵基础上定义degree matrix和Laplacian matrix,其中，Laplacian matrix是degree matrix减去邻接矩阵
用Laplacian matrix的特征向量表示图中各节点，则连接较为紧密的节点在转换后的欧式空间也离得很近（谱编码）
在谱编码的基础上，通常用K-means等方法聚类

Pipeline

一个pipeline由n个模型按顺序组成，其中前n-1个模型被称为transformer,主要作用是对数据进行特征提取，最后一个模型被称为estimator，主要作用是在特征基础上完成最后的模型预测。

从代码层面上来讲，前面n-1个transformer必须实现fit和transformer这两个接口，最后一个estimator则只需实现fit这个接口。

主成分分析（PCA）

模型原理

最佳降维向量的估计公式

$\hat{U}=argmax_{\left \| U \right \|=1}UCU^{^{T}}$

其中， $C=\sum_{i=1}^{n}X_{i}^{T}X_{i}$ 是协方差矩阵

主成分分析在降维过程中同时达到两个目的，一是尽可能保留数据间的差异，二是尽可能减少信息损失

模型实现

主成分分析要求数据的中心是原点，对于中心不是原点的数据，需要先进行数据平移（减去数据的中心点），再进行降维，类别数量k的选择同样依据elbow method

kernel PCA

若数据是非线性的，首先通过核函数将数据升到高维空间，然后再使用模型将高维空间里的数据降到所需的维度。

核函数+主成分分析

$max_{\alpha K\alpha ^{T}=1}\alpha KK\alpha ^{T}$

其中，K是高斯核函数， $\alpha$ 是拉格朗日对偶中的朗格朗日乘数

def trainKernelPCA(data):
    """
    使用带有核函数的主成分分析对数据进行降维
    """
    model = KernelPCA(n_components=2, kernel="rbf", gamma=25)
    model.fit(data)
    return model