第二十二章:无监督学习方法总结

本笔记仅记录《统计学习方法》中各个章节算法|模型的简要概述,比较泛泛而谈,用于应对夏令营面试可能会问的一些问题,不记录证明过程和详细的算法流程。大佬可自行绕路。

更多章节内容请参阅:李航《统计学习方法》学习笔记-CSDN博客

目录

无监督学习方法的关系和特点:

各种方法之间的联系:

无监督学习方法:

基础机器学习方法:

话题模型之间的关系和特点:


本书的第2篇《非监督学习》详细介绍了八种常用的统计机器学习方法,即聚类方法(包括层次聚类与k均值聚类)、奇异值分解(SVD)、主成分分析(PCA)、潜在语义分析(LSA)、概率潜在语义分析(PLSA)、马尔可夫链蒙特卡罗法(MCMC,包括Metropolis-Hastings算法和吉布斯抽样)、潜在狄利克雷分配(LDA)、PageRank 算法

此外,还简单介绍了另外三种常用的统计机器学习方法,即非负矩阵分解(NMF)、变分推理、幂法。这些方法通常用于无监督学习的聚类、降维、话题分析以及图分析

无监督学习方法的关系和特点:

各种方法之间的联系:

无监督学习用于聚类、降维、话题分析、图分析。聚类的方法有层次聚类、k均值聚类、高斯混合模型,降维的方法有PCA,话题分析的方法包括LSA、PLSA、LDA,图分析的方法有PageRank

基础方法不涉及具体的机器学习模型。基础方法不仅可以用于无监督学习,也可以用于监督学习、半监督学习。基础方法分为矩阵分解,矩阵特征值求解,含有隐变量的概率模型估计前两者是线性代数问题,后者是概率统计问题。矩阵分解的方法有SVD 和 NMF,矩阵特征值求解的方法有幂法,含有隐变量的概率模型学习的方法有EM算法、变分推理、MCMC

无监督学习方法:

聚类有硬聚类和软聚类,层次聚类与k均值聚类是硬聚类方法。高斯混合模型是软聚类方法。层次聚类基于启发式算法,k均值聚类基于迭代算法,高斯混合模型学习通常基于 EM算法。

降维有线性降维和非线性降维,PCA是线性降维方法。PCA 基于SVD。

话题分析兼有聚类和降维特点,有非概率模型、概率模型。LSA、NMF是非概率模型,PLSA、LDA是概率模型。PLSA 不假设模型具有先验分布,学习基于极大似然估计;LDA假设模型具有先验分布,学习基于贝叶斯学习,具体地后验概率估计。LSA的学习基于SVD, NMF可以直接用于话题分析。PLSA的学习基于EM算法,LDA 的学习基于吉布斯抽样或变分推理。

图分析的一个问题是链接分析,即结点的重要度计算。PageRank是链接分析的一个方法。PageRank通常基于幂法。

基础机器学习方法:

矩阵分解基于不同假设:SVD基于正交假设,即分解得到的左右矩阵是正交矩阵,中间矩阵是非负对角矩阵;非负矩阵分解基于非负假设,即分解得到的左右矩阵皆是非负矩阵。

含有隐变量的概率模型的学习有两种方法:迭代计算方法、随机抽样方法。EM算法和变分推理(包括变分EM算法)属于迭代计算方法,吉布斯抽样属于随机抽样方法。变分EM算法是EM算法的推广。

矩阵的特征值与特征向量求解方法中,幂法是常用的算法。

话题模型之间的关系和特点:

本书介绍的四种话题模型LSA、NMF、PLSA 和 LDA,前两者是非概率模型,后两者是概率模型

  • 16
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值