上研究生的时候,一心想读生物信息学的方向,由此也选修了生物数学,计算生物学等相关课程。给我印象最深的是给我们计算生物学的主讲老师,他北大数学系毕业,后来做起了生物和数学的交叉学科研究。课上讲的一些算法比如贝叶斯,马尔科夫,EM等把我给深深折磨了一遍。由于那时候不会编程,对于这些算法的理解只有停留在理论层面。课程结束了,学习也就结束了。最后毕业了,自己没能把生物坚持下去,转而成为了一只程序猿……
偶然间,翻开了自己买的一本机器学习实战的书(Machine learning in Action),看到里面有里面也有代码实现,甚是喜欢,同时也勾起我那段算法学习时光。于是我决定将书中的代码都敲一遍,修炼修炼内功。第一篇就从听出茧子的贝叶斯算法开始吧。
贝叶斯算法的一个核心就是贝叶斯准则:
p(c|x)=p(x|c)*p(c)/p(x)
如果想知道在x条件下c发生的概率,上面的公式提供给了我们一个逆向求解的过程,就是如果我们知道了在c条件下发生x的概率(核心),再加上p(c)和p(x),就可以得到我们想要的结果。这也是上面公式的魅力所在。
在书中,作者给的第一个例子是用贝叶斯方法区分某个网络用语是否文明的。代码如下:
# coding=utf-8
from numpy import *
def loadDataSet():
postingList=[['my','dog','has','flea','problem','help','please'],['maybe','not','take','him','to','dog',