一、前因
这一章节依然是基础知识,贝叶斯分类器的核心就是要计算出后验概率
p(wi|x)
p
(
w
i
|
x
)
,依据贝叶斯定理
其中:
- p(wi) p ( w i ) 是类别 i i 出现的概率,这个比较好求。根据训练样本
- p(x) p ( x ) 可以用全概率公式进行计算
但是似然(类别条件概率) p(x|wi) p ( x | w i ) 该怎么求? 很多时候,样本 x x 都是多属性的(也就是机器学习中通常说的特征空间是多维度的)。这就是朴素贝叶斯诞生原因。
二、推导
不是说类别条件概率不好求么?而且不好求的原因是样本是多属性的。那么我们就假设属性之间是相互独立的。这就是朴素贝叶斯。基于这个假设,我们用条件概率的乘法原理重写贝叶斯公式。(假设输入样本是 d d 维的)
继续改写 p(x) p ( x ) ,因为对于所有的类别来说都是相等的。
这就是朴素贝叶斯的目标函数。
三、参考文献
[1] 周志华. 《机器学习》[M]. 清华大学出版社, 2016.
[2] 李航. 《统计学习方法》[M].清华大学出版社,2013.
<个人网页blog已经上线,一大波干货即将来袭:https://faiculty.com/>
/* 版权声明:公开学习资源,只供线上学习,不可转载,如需转载请联系本人 .*/