朴素贝叶斯分类器
模型评价:
优点:在数据较少的情况下仍然有效,可以处理多类别问题
缺点:对于输入数据的准备方式较为敏感
适用数据类型:标称型数据
贝叶斯决策理论的核心思想:选择具有最高概率的决策
条件概率
计算条件概率的方法
①条件概率计算公式: p ( B ∣ A ) = P ( A B ) P ( A ) p(B|A) = \frac{P(AB)}{P(A)} p(B∣A)=P(A)P(AB)
②贝叶斯准则:贝叶斯准则告诉我们如何交换条件概率中的条件与结果。
p ( c i ∣ w ) = p ( w ∣ c i ) p ( c i ) p ( w ) p(c_i|w) = \frac{p(w|c_i)p(c_i)}{p(w)} p(ci∣w)=p(w)p(w∣ci)p(ci)
使用条件概率来分类:
如果 p ( c 1 ∣ x , y ) > p ( c 2 ∣ x , y ) p(c_1|x, y) > p(c_2|x, y) p(c1∣x,y)>p(c2∣x,y), 那么属于类别 c 1 c_1 c1
如果 p ( c 1 ∣ x , y ) < p ( c 2 ∣ x , y ) p(c_1|x, y) < p(c_2|x, y) p(c1∣x,y)<p(c2∣x,y), 那么属于类别 c 2 c_2 c2
使用贝叶斯准则,可以通过已知的三个概率值来计算未知的概率值。
朴素贝叶斯分类器假设:
①特征之间相互独立。这个假设是朴素贝叶斯分类器中"朴素"(naive)一词的含义
②每个特征同等重要
因为特征之间相互独立,所以,
p ( w ∣ c i ) = p ( w 0 ∣ c i ) p ( w 1 ∣ c i ) … p ( w N ∣ c i ) p(w|c_i)=p(w_0|c_i)p(w_1|c_i)…p(w_N|c_i) p(w∣ci)=p(w0∣ci)p(w1∣ci)…p(wN∣ci)
所以,
p ( c i ∣ w ) = p ( c i ) ∏ i = 1 N p ( w i ∣ c i ) p ( w ) p(c_i|w) = \frac{p(c_i)\prod_{i=1}^{N}p(w_i|c_i)}{p(w)} p(ci∣w)=p(w)p(ci)∏i=1Np(wi∣ci)
因为p(w)是个常数,所以,
p ( c i ∣ w ) = ∝ p ( c i ) ∏ i = 1 N p ( w i ∣ c i ) p(c_i|w) = \propto p(c_i)\prod_{i=1}^{N}p(w_i|c_i) p(ci∣w)=∝p(ci)i=1∏Np(wi∣ci)
故, c ^ = a r g m a x c P ( c ) ∏ i = 1 N P ( w i ∣ c ) \hat{c} = arg \underset{c}{max}P(c)\prod_{i=1}^{N}P(w_i|c) c^=argcmaxP(c)i=1∏NP(wi∣c)