关于PRML<Pattern Recognition and Machine Learning>的读书笔记有许多, 以下这个链接则从较高的层面上介绍了Bishop撰写PRML此书的思路:
http://book.douban.com/review/5560631/
这书给人的最大的印象可能是everything has a Bayesian version或者说everything can be Bayesianized,比如PRML至少给出了以下Bayesian对Frequentist的PK:
Frequentist版本 Bayesian版本
Linear regression <---> Bayesian linear regression
Logistic regression <---> Bayesian logistic regression
Neural network <---> Bayesian Neural network
SVM <---> RVM
Gaussian mixture model <---> Bayesian Gaussian mixture model
Probabilistic PCA <---> Bayesian probabilistic PCA
Hidden markov model <---> Bayesian Hidden markov model
Linear dynamic system <---> Bayesian Linear dynamic system
从作者的叙述来看,Bayesian是道美味可口的菜:避免over-fitting,自动选模型参数(例如GMM的分支数K,PCA所降到的维数)等等;虽然通向它的路途颇为艰难:marginalization涉及的计算是很复杂的。因此书里大量运用了approximation(前期大量Laplace approximation,后期Variational Bayes等)。
Frequentist一方的model/algorithm稍轻松一些,面临的计算困难没那么大:前期很多甚至有closed-form solution,要不就上gradient decent,后期则大量EM算法;但Frequentist要考虑over-fitting的问题(regularizing),又要cross-validation来选model,这减少了training data、增加了额外计算量,不如Bayesian方法来得elegant。
这本书总体上写的是非常清晰的。不过也有些不尽如人意的。比如第8章读完后我仍旧不知道PGM到底是什么,还是借助了Koller那本PGM的某几章才算搞清楚。再如SVM那一章(P328),Lagrangian function关于参数w,b最小化,关于Lagrange multiplier最大化这一点,也是看了Andrew Ng的Lecture note后才理解为什么的。
另外, 作者给出了他自己学习PRML这本书的笔记, 链接如下, 感兴趣的朋友可以去他的网盘上下载学习。
http://vdisk.weibo.com/s/bc6IJ