中文翻译sklearn Naive Bayes

最新推荐文章于 2022-10-28 14:35:01 发布

PerpetualLearner

最新推荐文章于 2022-10-28 14:35:01 发布

阅读量363

点赞数 1

分类专栏： # 小白学机器学习文章标签： sklearn Naive Bayes nb 朴素贝叶斯

小白学机器学习专栏收录该内容

55 篇文章 18 订阅

订阅专栏

官方文档¹

Naive Bayes方法是一系列采用基于朴素假设（类变量对应的属性值彼此条件独立）的贝叶斯定理的监督学习算法。

贝叶斯定理申明如下关系，给定的类变量 $y$ 和从属的特征向量 $x_1,x_2,...,x_n$ :
$P(y|x_1,x_2,...x_n)=\frac{P(y)P(x_1,x_2,...x_n|y)}{P(x_1,x_2,...x_n)}$
采用如下朴素的条件独立性假设：
$P(x_i|y,x_1,...x_{i-1},x_{i+1},...,x_n) = p(x_i|y)$
对于所有的 $i$ ，这种关系可以简化为：
$P(y|x_1,...,x_n)=\frac{P(y)\prod_{i=1}^nP(x_i|y)}{P(x_1,...,x_n)}$
因为 $P(x_1,...,x_n)$ 是给定的常数，我们可以采用如下的分类规则：
$P(y|x_1,...,x_n) \in P(y)\prod_{i=1}^nP(x_i|y) \\ \Downarrow \\ \hat{y} = {argmax}_{y}P(y)\prod_{i=1}^nP(x_i|y)$
我们可以用MAP估计方法来估计 $P (y)$ 和 $P(x_i|y)$ ，前者就是类别 $y$ 在训练集中的相对频率。

不同的朴素贝叶斯分类器区别主要在于对待 $P(x_i|y)$ 分布的不同假设。

尽管假设看起来相当简单，但是朴素贝叶斯分类器在真实生活中许多方面都表现良好，特别是文本分类和垃圾邮件过滤。他们只需要小规模的训练数据就可以估计必要的参数。（之于NB作用显著的原因，以及适用的数据类型，参见附录）

相比于复杂的方法，NB学习器和分类器出奇的快，类条件特征分布的去耦合意味着每个分布可以作为一维分布独立评估。这反过来有助于缓解维数灾难带来的问题阻塞。

尽管NB是一个较好的分类器（classifier），但却是一个差的评估器（estimator），所以对于predict_proba 给出的概率不要太当真。
References:
- H. Zhang (2004). The optimality of Naive Bayes. Proc. FLAIRS.
Gaussian Naive Bayes

GaussianNB采用GaussianNB算法用于分类。假设特征的似然服从高斯分布：
$P(x_i|y)=\frac{1}{\sqrt{2\pi \sigma^2_y}}exp(-\frac{(x_i-\mu_y)^2}{2\sigma^2_y})$
$\sigma_y$ 和 $\mu_y$ 采用最大似然估计
Multinomial Naive Bayes

MultinomialNB采用多项式分布，是用于文本分类的两大经典NB变体之一，每个类 $y$ 的分布被向量 $\theta_y=(\theta_{y1},...,\theta_{yn})$ 确定。 $n$ 是特征数目（在文本分类中，是词汇表总数）， $\theta_{yi}$ 是特征 $i$ 的概率 $P(x_i|y)$ 刚好在属于类 $y$ 的样本中。

参数 $\theta_y$ 通过某种平滑后的最大似然估计，例如相对频率计算：
$\hat{y}=\frac{N_{yi}+\alpha}{N_y+\alpha n}$
其中 $N_{yi}=\sum_{x\in T}x_i$ 是特征 $i$ 出现在类别 $y$ 的一个样本中的次数。

$N_y=\sum^n_{i=1}N_{yi}$ 是对于 $y$ 所有的特征总数。

平滑先验 $\alpha \geq 0$ 是因为，在训练样本中没出现从而使得将来计算中出现0概率的特征。将 $\alpha=1$ 称为Laplace平滑，而 $\alpha < 1$ 称为Lidstone平滑。
Complement Naive Bayes
Bernoulli Naive Bayes
Out-of-core Naive Bayes model fitting

Reference

1.9. Naive Bayes ↩︎

PerpetualLearner

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。