Machine Learning (1) Naive Bayes

最新推荐文章于 2023-03-22 14:43:14 发布

Tianmenge

最新推荐文章于 2023-03-22 14:43:14 发布

阅读量1.1k

点赞数

分类专栏： python 机器学习文章标签： python 机器学习

python 同时被 2 个专栏收录

7 篇文章 0 订阅

订阅专栏

机器学习

2 篇文章 0 订阅

订阅专栏

最近在看Udacity上关于Machine Learning的初级课程，学习并记录一下相关的知识点。

1.1 Naive Bayes

第一部分讲了朴素贝叶斯的基本原理，以及如何使用Python sklearn建立朴素贝叶斯分类器。

下面的介绍主要来自sklearn上关于朴素贝叶斯分类方法的介绍
http://scikit-learn.org/stable/modules/naive_bayes.html

Naive Bayes methods are a set of supervised learning algorithms based on applying Bayes’ theorem with the “naive” assumption of independence between every pair of features.

朴素贝叶斯方法是一组基于贝叶斯原理的监督学习方法，这类方法假设样本特征之间是相互独立的。给定一个类变量 ${y}$ 和与之相关的一组特征向量，从 $x_1$ 到 $x_n$ ，则贝叶斯定理定义了如下关系：

P (y ∣ x 1, \dots, x n) = P ( y ) P ( x 1 , \dots x n ∣ y ) P ( x 1 , \dots , x n )

$P(y \mid x_1, \dots, x_n) = \frac{P(y) P(x_1, \dots x_n \mid y)} {P(x_1, \dots, x_n)}$

使用朴素贝叶斯的独立性假设可以得到

P (x i | y, x 1, \dots, x i - 1, x i + 1, \dots, x n) = P (x i | y),

$P(x_i | y, x_1, \dots, x_{i-1}, x_{i+1}, \dots, x_n) = P(x_i | y),$

对于所有的 $i$ ，上述关系可以简化为

P (y ∣ x 1, \dots, x n) = P ( y ) \prod n i = 1 P ( x i ∣ y ) P ( x 1 , \dots , x n )

$P(y \mid x_1, \dots, x_n) = \frac{P(y) \prod_{i=1}^{n} P(x_i \mid y)} {P(x_1, \dots, x_n)}$

由于输入给定的条件下 $P(x_1, \dots, x_n)$ 是常数，我们可以使用下面的分类规则：

P (y ∣ x 1, \dots, x n) \propto P (y) \prod i = 1 n P (x i ∣ y)

$P(y \mid x_1, \dots, x_n) \propto P(y) \prod_{i=1}^{n} P(x_i \mid y)$

⇓

$\Downarrow$

y^= arg max y P (y) \prod i = 1 n P (x i ∣ y),

$\hat{y} = \arg\max_y P(y) \prod_{i=1}^{n} P(x_i \mid y),$

我们可以使用最大后验估计(Maximum A Posteriori estimation, MAP)方法来估计 $P(y)$ 和 $P(x_i \mid y)$ ，前者是训练集中类别 $y$ 的相对频率。

不同朴素贝叶斯分类器之间的差别主要在于，对 $P(x_i \mid y)$ 的分布的假设。

尽管假设过于简单，朴素贝叶斯分类器在许多实际问题中的处理效果却非常好，比如文本分类和垃圾邮件检测，这类分类器需要少量的训练数据来估计参数。（朴素贝叶斯分类器工作效果好的原因以及在什么类型的数据上效果比较好，针对这些问题的理论解释可以参考文末给出的文献。）

相比其他更复杂的方法，朴素贝叶斯方法学习和分类的运算速度都非常快。类别条件下特征分布的解耦意味着每个特征的分布可以独立地估计为一维分布，这反过来也有助于减轻维数灾难引起的问题。

另一面，虽然朴素贝叶斯是一个不错的分类器，但是对类概率的估计往往并不准确，所以不必过于在意 $predict\_proba$ 输出的概率值。

References:
H. Zhang (2004). The optimality of Naive Bayes. Proc. FLAIRS.

1.2 Gaussian Naive Bayes

朴素贝叶斯分类器最常用的分布假设是正态分布假设，下面使用 sklearn.naive_bayes 中的 GaussianNB 构建高斯朴素贝叶斯分类器。特征的条件似然函数假定服从正态分布：

P (x i ∣ y) = 1 2 π σ 2 y - - - - \sqrt exp ⎛ ⎝ - ( x i - μ y ) 2 2 σ 2 y ⎞ ⎠

$P(x_i \mid y) = \frac{1}{\sqrt{2\pi\sigma^2_y}} \exp\left(-\frac{(x_i - \mu_y)^2}{2\sigma^2_y}\right)$

参数 $\sigma_y$ and $\mu_y$ 使用极大似然法进行估计。

下面是使用Python的sklearn包构建高斯朴素贝叶斯分类器的小例子：

>>> from sklearn import datasets
>>> iris = datasets.load_iris()  # 使用样例数据
>>> from sklearn.naive_bayes import GaussianNB  # 导入模块
>>> gnb = GaussianNB()  # 初始化分类器
>>> gnb.fit(iris.data, iris.target)  # 使用训练数据进行模型训练
>>> y_pred = gnb.predict(iris.data)  # 对测试数据进行预测
>>> print("Number of mislabeled points out of a total %d points : %d"
...       % (iris.data.shape[0],(iris.target != y_pred).sum()))
Number of mislabeled points out of a total 150 points : 6