朴素贝叶斯是基于贝叶斯定理和假设特征条件独立的分类方法。 from https://fangpin.github.io
贝叶斯定理
(p(y|x)=\frac{p(x,y)}{p(x)}=\frac{p(y)*p(x|y)}{\sum_{y}{}p(y)*p(x|y)})
条件独立
(p(X=x|Y=c_k)=\prod_{j=1}^{n}p(X^j=x^j|Y=c_k))
朴素贝叶斯
(y=\arg \max_{c_k} \frac{p(Y=c_k)*\prod_{j} p(X^j=x^j|Y=c_k)}{p(X=x)})
分母为定值,分子最大时取得最大值。
参数估计
上述公式中概率根据训练数据进行经验估计。
(p(Y=c_k)=\frac{\sum_{i=1}{N}I(y_i = c_k)}{N})
(p(X^j=a_j|y=c_k)=\frac{\sum_{i=1}^{n}I(x_{i}^{j}=a_j,y_i=c_k)}{\sumI(y_i=c_k)})
上式概率值可能为0,引起分类偏差。引入
(p(X^j=a_j|y=c_k)=\frac{\sum_{i=1}^{n}I(x_{i}^{j}=a_j,y_i=c_k)+\lambda}{\sum_{}I(y_i=c_k)+lambda})
当λ=1时,又称为拉普拉斯平滑。