前言
机器学习的第二课:朴素贝叶斯。使用贝叶斯公式,计算先验概率。适用于样本量少的情况。
一、朴素贝叶斯的假设
- 每个变量之间独立
- 每个特征同样重要
二、NB的计算步骤
- 计算 p ( Y i ) = N Y i N p(Y_i)=\frac{N_{Y_i}}{N} p(Yi)=NNYi
- 计算 p ( x ∣ Y i ) = ∏ j p ( x ( j ) ∣ Y i ) = ∏ N x ( j ) N Y i p(x|Y_i)=\prod_j p(x^ {(j)}|Y_i)=\prod \frac{Nx^{(j)}}{N_{Y_i}} p(x∣Yi)=∏jp(x(j)∣Yi)=∏NYiNx(j)
三、NB的优缺点
- 优点:数据量少时依然有用,可以处理多分类问题
- 缺点:对于输入数据的准备方式较为敏感
四、NB用到的代码
在Python中,sklearn库里的naive_bayes可以直接使用。分为multinomial,bernoulli还有Gaussian.