【学习笔记】斯坦福大学公开课（机器学习）之生成学习算法：朴素贝叶斯

最新推荐文章于 2022-07-01 17:14:02 发布

好奇的大白

最新推荐文章于 2022-07-01 17:14:02 发布

阅读量416

点赞数

分类专栏：机器学习文章标签：机器学习斯坦福大学算法朴素贝叶斯

本文链接：https://blog.csdn.net/li_ximin/article/details/73527215

版权

机器学习专栏收录该内容

18 篇文章 0 订阅

订阅专栏

朴素贝叶斯（Naive Bayes）

在上一篇介绍的高斯判别分析模型，特征向量 $X$ 是连续的实向量。对于离散的特征值来说 $x$ ，我们就需要用到另一种模型。
现在我们需要建立一个模型，来识别一封邮件是否是垃圾邮件。邮件分类是众多文本分类问题中的一种。
在开始建立模型之前，我们需要特征值 $x_{i}$ 来表示邮件的内容。首先我们要指定一个特征向量，其长度就是字典中单词的个数。如果在邮件中，该单词出现了，那么就会在向量中对应的位置（比如第i维位置）上置为1（即 $x_i=1$ ），否则都为0。
为了建立 $p(x|y)$ 模型，我们假设 $x_i$ 关于 $y$ 的条件独立，这个假设我们称之为朴素贝叶斯假设（Naive Bayes (NB) assumption），生成的算法就是朴素贝叶斯分类器(Navie Bayes Classifier)。
那么如果我们有50000个单词，在条件独立的情况下，可以得到：

p (x 1, \dots, x 50000 | y) = p (x 1 | y) p (x 2 | y) p (x 3 | y) \dots p (x 50000 | y) = \prod i = 1 n p (x i | y)

$\begin{align} p(x_1,&\cdots,x_{50000}|y)\\ &=p(x_1|y)p(x_2|y)p(x_3|y)\cdots p(x_{50000}|y)\\ &=\prod_{i=1}^np(x_i|y) \end{align}$
我们的模型有三个参数，分别是

ϕi|y=1=p(xi=1|y=1),ϕi|y=0=p(xi=1|y=0)，ϕy=p(y=1) $\phi_{i|y=1}=p(x_i=1|y=1),\phi_{i|y=0}=p(x_i=1|y=0)，\phi_y=p(y=1)$ 。一般情况下，给定的训练样本是

{(x(i),y(i));i=1,⋯,m} $\{(x^{(i)},y^{(i)});i=1,\cdots ,m\}$ 。我们写下似然函数：

L (ϕ y, ϕ i = 0 | y = 1, ϕ i = 1 | y = 1) = \prod i = 1 m p (x (i), y (i))

$L(\phi_y,\phi_{i=0|y=1},\phi_{i=1|y=1})=\prod_{i=1}^mp(x^{(i)},y^{(i)})$
针对参数我们算出最大似然函数：

ϕ j | y = 1 = \sum m i = 1 1 { x ( i ) j = 1 ⋀ y ( i ) = 1 } \sum m i = 1 1 { y ( i ) = 1 }

$\phi_{j|y=1}=\frac{\sum_{i=1}^m1\{x_j^{(i)}=1\bigwedge y^{(i)}=1\}}{\sum_{i=1}^m1\{y^{(i)}=1\}}$

ϕ j | y = 0 = \sum m i = 1 1 { x ( i ) j = 1 ⋀ y ( i ) = 0 } \sum m i = 1 1 { y ( i ) = 0 }

$\phi_{j|y=0}=\frac{\sum_{i=1}^m1\{x_j^{(i)}=1\bigwedge y^{(i)}=0\}}{\sum_{i=1}^m1\{y^{(i)}=0\}}$

ϕ y = \sum m i = 1 1 { y ( i ) = 1 } m

$\phi_{y}=\frac{\sum_{i=1}^m1\{ y^{(i)}=1\}}{m}$
有了上面的结果我们就可以算出

p(y=1|x)=p(x|y=1)p(y=1)p(x) $p(y=1|x)=\frac{p(x|y=1)p(y=1)}{p(x)}$ 了。

拉普拉斯平滑（Laplace smoothing）

朴素贝叶斯算法针对很多情况都能有很好的表现，这里有一个好方法让算法表现更佳，尤其针对文本分类问题。
当训练完一个文本分类模型后，针对训练样本中没有出现的而在判断新文本时出现的文本又有何方法来对训练进行优化呢？
针对这种在训练样本中没有出现过的新文本，他们对模型的判断有什么样的影响？
比如出现了一个训练样本中没有出现的单词，这个单词对应到特征向量 $X$ 中是第3500位。那么就有如下数学表示：

ϕ 3500 | y = 1 = \sum m i = 1 1 { x ( i ) 3500 = 1 ⋀ y ( i ) = 1 } \sum m i = 1 1 { y ( i ) = 1 } = 0

$\phi_{3500|y=1}=\frac{\sum^m_{i=1}1\{x^{(i)}_{3500}=1\bigwedge y^{(i)}=1\}}{\sum^m_{i=1}1\{y^{(i)}=1\}}=0$

ϕ 3500 | y = 0 = \sum m i = 1 1 { x ( i ) 3500 = 1 ⋀ y ( i ) = 0 } \sum m i = 1 1 { y ( i ) = 0 } = 0

$\phi_{3500|y=0}=\frac{\sum^m_{i=1}1\{x^{(i)}_{3500}=1\bigwedge y^{(i)}=0\}}{\sum^m_{i=1}1\{y^{(i)}=0\}}=0$
即表示这个字符在训练的模型中，没有对预测的结果产生任何影响，因为它在训练集中没有出现过，所以得到的结果都是0。
如果这种情况出现了，那么在预测结果时就会出现如下情况：