【CS229笔记】Naive Bayes朴素贝叶斯算法

TKROOS8

已于 2023-01-17 15:46:01 修改

阅读量225

点赞数

分类专栏： CS229学习记录文章标签：算法人工智能

于 2023-01-17 15:42:12 首次发布

本文链接：https://blog.csdn.net/weixin_42832365/article/details/128716959

版权

CS229学习记录专栏收录该内容

2 篇文章 0 订阅

订阅专栏

【CS229笔记】Naive Bayes朴素贝叶斯算法

- Naive Bayes 朴素贝叶斯算法

Naive Bayes 朴素贝叶斯算法

朴素贝叶斯是课程中所介绍的另一种生成式学习算法。它针对的是输入x是离散的情况。

为了讲解朴素贝叶斯算法，我们设想决定设计一个电子邮件垃圾邮件过滤器，我们希望对邮件进行分类。这个和之前的分类任务有所不同，这个是文本分类。它并没有体重、面积、房间数这种如此明显的特征，它有的只是一堆文本而已，那么首先我们需要考虑如何构建特征向量？

特征向量的构建

我们利用一个特征向量来表示一个电子邮件，这个向量的长度等于字典里面的单词数，例如字典中有35000个单词，那么这个向量就有35000维。如果电子邮件包含字典中的第i个单词，那么 $x_i=1$ ，否则就是 $x_i=0$ 。编码到特征向量的词汇的集合称之为词汇表，特征向量的维度和词汇表的容量是一致的。

生成模型的构建

现在我们要构建一个生成模型，所以我们需要对 $p (x ∣ y)$ 来建模。但是如果词汇表中有50000个单词（ $x_1,x_2,...,x_{50000}$ ），那么特征向量就会有 $2^{50000}$ 种可能，如果说我们采用多项式分布对x进行建模的话，那么我们就会有 $2^{50000}-1$ 个参数需要确定（每一种结果输出的概率），这么多参数要拟合是不可行的。

我们需要做出一个very strong的假设（大概就是假定数据比较接近某种理想态的意思），我们将假设在给定y条件下， $x_i$ 是条件独立的，即 $p(x_1,x_2,...,x_{50000}|y)=p(x_1|y)p(x_2|y)...p(x_{50000}|y)$ ，这个假设称之为朴素贝叶斯假设，由此产生的算法是朴素贝叶斯分类器。这个假设通俗理解就是：对于一封垃圾邮件，“buy”这个单词并不影响"price"这个单词出现的概率。【提醒：条件独立和独立不是一个东西，具体可见https://zhuanlan.zhihu.com/p/58593725，下面将这篇文章的阐述摘录出来了】

条件独立和独立并不等价

独立推不出条件独立：有两枚正反概率均为 50% 的硬币，设事件 A 为第一枚硬币为正面，事件 B 为第二枚硬币为正面，事件 C 为两枚硬币同面。A 和 B 显然独立，但如果 C 已经发生，即已知两枚硬币同面，那么 A 和 B 就不（条件）独立了。
条件独立推不出独立：有一枚硬币正面的概率为 99%，另一枚反面的概率为 99%，随机拿出一枚投掷两次，事件 A 为第一次为正面，事件 B 为第二次为正面，事件 C 为拿出的是第一枚硬币。可以算出来 P(B) = 0.5 但 P(B|A) = 0.9802，说明 A 和 B 不独立，但如果 C 已经发生，即已知了拿出的是第一枚硬币，那么 A 和 B 就（条件）独立了。

再说回模型的事儿，现在我们已知 $p(x_1,...,x_{50000} \mid y)=\prod_{i=1}^{n}{p(x_i \mid y)}$ ，那么此模型由以下参数决定： ${\phi}_{i \mid y=1}=p(x_i=1 \mid y=1)$ ， ${\phi}_{i \mid y=0}=p(x_i=1 \mid y=0)$ 以及 ${\phi}_{y}=p(y=1)$ 。此时联合似然函数为 $L(\phi_y,\phi_{j \mid y=0},\phi_{j \mid y=1})=\prod_{i=1}^{n}{p(x_i \mid y)}$