从贝叶斯推断角度理解机器学习模型(PRML全书概括)

最新推荐文章于 2024-08-27 10:11:17 发布

且歌且行

最新推荐文章于 2024-08-27 10:11:17 发布

阅读量1.9k

点赞数

分类专栏：机器学习

机器学习专栏收录该内容

28 篇文章 0 订阅

订阅专栏

关于PRML<Pattern Recognition and Machine Learning>的读书笔记有许多，以下这个链接则从较高的层面上介绍了Bishop撰写PRML此书的思路：

http://book.douban.com/review/5560631/

这书给人的最大的印象可能是everything has a Bayesian version或者说everything can be Bayesianized，比如PRML至少给出了以下Bayesian对Frequentist的PK：
　　
　　Frequentist版本 Bayesian版本
　　Linear regression <---> Bayesian linear regression
　　Logistic regression <---> Bayesian logistic regression
　　Neural network <---> Bayesian Neural network
　　SVM <---> RVM
　　Gaussian mixture model <---> Bayesian Gaussian mixture model
　　Probabilistic PCA <---> Bayesian probabilistic PCA
　　Hidden markov model <---> Bayesian Hidden markov model
　　Linear dynamic system <---> Bayesian Linear dynamic system
　　
　　从作者的叙述来看，Bayesian是道美味可口的菜：避免over-fitting，自动选模型参数（例如GMM的分支数K，PCA所降到的维数）等等；虽然通向它的路途颇为艰难：marginalization涉及的计算是很复杂的。因此书里大量运用了approximation（前期大量Laplace approximation，后期Variational Bayes等）。
　　Frequentist一方的model/algorithm稍轻松一些，面临的计算困难没那么大：前期很多甚至有closed-form solution，要不就上gradient decent，后期则大量EM算法；但Frequentist要考虑over-fitting的问题（regularizing），又要cross-validation来选model，这减少了training data、增加了额外计算量，不如Bayesian方法来得elegant。
　　
　　这本书总体上写的是非常清晰的。不过也有些不尽如人意的。比如第8章读完后我仍旧不知道PGM到底是什么，还是借助了Koller那本PGM的某几章才算搞清楚。再如SVM那一章(P328)，Lagrangian function关于参数w,b最小化，关于Lagrange multiplier最大化这一点，也是看了Andrew Ng的Lecture note后才理解为什么的。