机器学习 3-CSDN博客

本文链接：https://blog.csdn.net/nomad2/article/details/6905301

Generative Learning Algorithm

refer to http://justin314.blog.163.com/blog/static/18717838720101121115542497/

今天看了一集斯坦福的机器学习课程，讲的是Generative Learning Algorithm。这是与Discriminative Learning Algorithm相对的，DLA是直接学习P(Y|X)，例子就是线性回归和logistic regression。而GLA则是走迂回路线，学习P(X|Y)，然后根据贝叶斯定理计算P(Y|X)=P(X|Y)P(Y)/P(X)，例如Gaussian discriminant analysis和Naive Bayes。

GDA是假设P(X|Y)服从正态分布，然后分别估计P(X|Y=0)和P(X|Y=1)的正态参数。实际上这套方法说出来没有什么不好理解的，以前也在有意无意中想过用过，但是从来没有从理论上思考过它。为什么可以这样用？其实是有贝叶斯公式为理论依据的。老师在最后还讲到GDA是logistic regression的一种特化，或者说GDA蕴含logistic regression。我理解就是，能用GDA学习的都能用logistic regression学出来。虽说GDA假设比较强，貌似适应性差一点，但这其实也是它的好处，假设强就比较容易学习，所需的训练样本数量也要少一些。

Naive Bayes以前用得就更多了。什么图像分类啊、文本聚类啊都有用过这个方法。其实它的理论也比较清晰易懂的。

P(X|Y)=P(X1|Y)P(X2|Y, X1)P(X3|Y, X1, X2)...P(Xn|Y, X1, X2, ..., Xn-1) 这是根据Chain rule得到的
=P(X1|Y)P(X2|Y)P(X3|Y)...P(Xn|Y) 这才是Naive Bayes的关键，即假设输入向量的各维都是独立的

尽管独立假设对于具体的实际问题不一定合理，但这却使计算变得可行。对于n维的输入，只要学习n组参数就可以了。参数的估计也比较简单，就是加法和除法了。

最后，老师讲了Laplace smoothing。这个名词看起来好陌生，听他一讲才知道，原来也是接触过的。Laplace smoothing其实就是平常说的add-one smoothing。Add-one听起来有点太直白，还是Laplace显着高深，呵呵。