第二十二章：无监督学习方法总结

笨笨sg

已于 2024-06-30 15:03:41 修改

阅读量463

点赞数 16

分类专栏：《统计学习方法》——李航文章标签：无监督学习方法总结

于 2024-05-23 11:07:09 首次发布

本文链接：https://blog.csdn.net/a131529/article/details/139141893

版权

《统计学习方法》——李航专栏收录该内容

23 篇文章 0 订阅

订阅专栏

本笔记仅记录《统计学习方法》中各个章节算法|模型的简要概述，比较泛泛而谈，用于应对夏令营面试可能会问的一些问题，不记录证明过程和详细的算法流程。大佬可自行绕路。

更多章节内容请参阅：李航《统计学习方法》学习笔记-CSDN博客

本书的第2篇《非监督学习》详细介绍了八种常用的统计机器学习方法，即聚类方法(包括层次聚类与k均值聚类)、奇异值分解(SVD)、主成分分析（PCA)、潜在语义分析(LSA)、概率潜在语义分析(PLSA)、马尔可夫链蒙特卡罗法(MCMC，包括Metropolis-Hastings算法和吉布斯抽样)、潜在狄利克雷分配（LDA)、PageRank 算法。

此外，还简单介绍了另外三种常用的统计机器学习方法，即非负矩阵分解(NMF)、变分推理、幂法。这些方法通常用于无监督学习的聚类、降维、话题分析以及图分析。

无监督学习方法的关系和特点：

各种方法之间的联系：

无监督学习用于聚类、降维、话题分析、图分析。聚类的方法有层次聚类、k均值聚类、高斯混合模型，降维的方法有PCA，话题分析的方法包括LSA、PLSA、LDA,图分析的方法有PageRank。

基础方法不涉及具体的机器学习模型。基础方法不仅可以用于无监督学习，也可以用于监督学习、半监督学习。基础方法分为矩阵分解,矩阵特征值求解，含有隐变量的概率模型估计，前两者是线性代数问题，后者是概率统计问题。矩阵分解的方法有SVD 和 NMF，矩阵特征值求解的方法有幂法，含有隐变量的概率模型学习的方法有EM算法、变分推理、MCMC。

无监督学习方法：

聚类有硬聚类和软聚类，层次聚类与k均值聚类是硬聚类方法。高斯混合模型是软聚类方法。层次聚类基于启发式算法,k均值聚类基于迭代算法，高斯混合模型学习通常基于 EM算法。

降维有线性降维和非线性降维，PCA是线性降维方法。PCA 基于SVD。

话题分析兼有聚类和降维特点，有非概率模型、概率模型。LSA、NMF是非概率模型，PLSA、LDA是概率模型。PLSA 不假设模型具有先验分布,学习基于极大似然估计;LDA假设模型具有先验分布，学习基于贝叶斯学习，具体地后验概率估计。LSA的学习基于SVD, NMF可以直接用于话题分析。PLSA的学习基于EM算法，LDA 的学习基于吉布斯抽样或变分推理。

图分析的一个问题是链接分析，即结点的重要度计算。PageRank是链接分析的一个方法。PageRank通常基于幂法。