导言:写在前面的话
pattern recognition andmachine learning这本书提供了机器学习中最为经典的数学知识,适用于机器学习、统计学、计算机科学、信号处理、计算机视觉、数据挖掘和生物信息学等课程。阅读这本书需要有一定的微积分、数理统计和线性代数基础。以前在上机器学习课程的时候,缺乏很多必要的数学知识和数学基础,结果在阅读论文的时候就显得捉襟见肘。本文主要对这本书进行简要的介绍以及理清楚大概脉络,然后进行下一个阶段的学习路线。
1. 内容介绍
内容囊括了很多,主要包含有
- 神经网络学习
- 核方法、高斯过程回归与分类及SVM
- 一个以概率图框架为中心视角的贝叶斯概率模型,包括贝叶斯变分推理、条件随机场及概率图推断
- 隐变量技巧:高斯混合模型、RBM;连续隐变量线性的PCA模型和非线性的流形
2. 文章目录
- Introduction
以多项式回归函数作为例子来表达机器学习中的数据拟合,接着介绍了概率论、决策论、信息论、维度灾难等机器学习中的一些理论模型等等。 - Probability Distributions
这一章主要介绍了概论论中常见的分布函数例如beta分布,gamma分布、高斯分布以及指数分布规律等等。 - Linear Models for Regression
这一章主要介绍了线性基函数、正则化方法以及贝叶斯线性回归模型以及这些方法与核函数之间的联系等等。 - Linear Models for classification
本章主要介绍了线性回归模型,包括有贝叶斯的marginalization概念、Fisher线性判别、感知机、分类器概率生成和判别模型的区别与联系、逻辑回归的最大似然估计、贝叶斯逻辑回归的Laplace近似推断等内容。 - Neural Networks
这一章主要介绍机器学习中的神经网络用于回归分析和分类,讲述了前向传播、后向传播求导法则,梯度下降、误差分析等等一些知识。 - Kernel Methods
这一章主要介绍了一些核方法的知识,包含有核函数的定义、构建方法,通过线性回归的Dual Representations推导说明由基于特征到基于样本学习的转换;之后介绍高斯过程(Gaussian Process),包含有GP的协方差矩阵形式、超参数、预测等内容。 - Sparse Kernel Machines
本章主要讲述了支持向量机、由KKT条件说明了解的稀疏性;为提高泛化能力增加松弛变量的SVM;最后是加了先验有更稀疏解的RVM。 - Graphical Models
这一章主要介绍了贝叶斯网络和马尔科夫条件随机场、联合概率分解、条件独立表示;图模型中推断等等一些基本概率模型。 - Mixture Models and EM
这一章主要介绍了KMeans算法,混合模型,GMM一些应用;机器学习中重要的EM算法性质的推导以及证明。 - Approximate Inference
这一章主要介绍了一些使用贝叶斯方法做模型的近似推理,主要讲述了变分推断、变分推断中使用到的KL散度,根据平均场思想的分解以及迭代求最优解的推导等等。 - Sampling Methods
这一章的主要内容是MCMC,包括有马尔科夫平稳分布的定义以及其充分条件:细致平稳条件的证明:Metropolis-Hastings及其接受率满足细致平稳条件的推导,接受恒为1的Gibbs Sampling;最后讲述了Slice Sampling、Hamilton MCMC。 - Continuous Latent Variables
这一章讲述内容有:从最大方差和最小重构误差的两个角度解释了PCS基本原理;包含连续隐变量的概率生成模型PPCA,其最大似然闭式解的推导以及EM求解方法;核PCA的变换;最后介绍了Autoencoder、非线性流形思想。 - Sequential Data
这一章讲述的内容包含有:隐马尔可夫模型的数据生成过程及其参数的EM求解方法、HMM的预测和解码。 - Combining Methods
这一章主要讲述的内容有committees、Boosting、AdaBoost,并从最优化指数损失函数的角度对其步骤做了解释;最后是决策树和条件混合模型。
3. 学习方法
基础参考数学书籍有:菲赫金哥尔茨的《微积分学教程》三卷本、数学分析教程(常庚哲.史济怀)上下册、[美]Sheldon.M.Ross 概率论基础教程
数学推理结合算法编程来理解书中所讲述的原理理论。