贝叶斯算法属于监督类机器学习算法,他的原理很简单,但是他的用处很广泛。
先简单介绍一下算法原理:
如果预测两个球员比赛,谁胜谁负,再没有其他信息的情况下,我们可能会说 五五开吧。
但是,如果我们知道两个球员之前的比赛信息,就像解说员刚开始解说比赛的时候往往会说以往的对阵战绩是几胜几平几负。那么,我们会根据这个信息估计,球员A获胜的概率80%,比较看好他。
那么,我们估计这个结果的时候,恰巧与贝叶斯的算法原理吻合。
贝叶斯公式表示(摘自《概率论与数理统计》浙大版):
ok,具体的推理证明就不讲了,估计我也讲不太明白:)
这里说样本空间有 n 个划分,那么这里的划分其实就是样本空间的分类,那么这个公式的意思就是说 事件 A 属于分类 Bi 的概率是怎么计算的。
分类就是计算属于哪个类别的概率最大。
公式原理是这样的,但是在分类的时候,对于每一个分类来讲,这个值是一定的,所以,具体计算的时候,我们只计算分子的值就可以。
朴素贝叶斯分类:
如果有一个待分类的 A:
A =(a1, a2, a3……an) ai 为 A 的一个特征属性,A 为一个向量
如果 ai 之间 相互独立 ,那么
P(A | Bi) = P(a1|Bi) * P(a2|Bi) *