机器学习—贝叶斯算法与朴素贝叶斯分类

最新推荐文章于 2022-08-30 15:51:54 发布

ch3ung777

最新推荐文章于 2022-08-30 15:51:54 发布

阅读量190

点赞数

分类专栏： NLP 机器学习

本文链接：https://blog.csdn.net/shawnchang777/article/details/116888817

版权

NLP 同时被 2 个专栏收录

2 篇文章 0 订阅

订阅专栏

机器学习

1 篇文章 0 订阅

订阅专栏

最近两天在复习贝叶斯算法，看了不少相关文章，但发现绝大部分都过分强调于公式的演算，个人认为首先应该掌握其中的思想。

本文会按照以下顺序介绍相关内容：

贝叶斯方法由来
贝叶斯公式理解
贝叶斯在NLP中的应用
朴素贝叶斯分类实例

历史

所谓的贝叶斯方法源于他生前为解决一个“逆概”问题写的一篇文章，而这篇文章是在他死后才由他的一位朋友发表出来的。在贝叶斯写这篇文章之前，人们已经能够计算“正向概率”，如“假设袋子里面有N个白球，M个黑球，你伸手进去摸一把，摸出黑球的概率是多大”。而一个自然而然的问题是反过来：“如果我们事先并不知道袋子里面黑白球的比例，而是闭着眼睛摸出一个（或好几个）球，观察这些取出来的球的颜色之后，那么我们可以就此对袋子里面的黑白球的比例作出什么样的推测”。这个问题，就是所谓的逆概问题。 —wikipedia

贝叶斯公式

让我们先来了解概率和统计的关系：

百度百科：贝叶斯概率（Bayesian Probability）是由贝叶斯理论所提供的一种对概率的解释，它采用将概率定义为某人对一个命题信任的程度的概念。
概率论是统计推断的基础，在给定数据生成过程下观测、研究数据的性质；而统计推断则根据观测的数据，反向思考其数据生成过程。预测、分类、聚类、估计等，都是统计推断的特殊形式，强调对于数据生成过程的研究。
举例来说，概率论研究的是一个白箱子，你知道这个箱子的构造（里面有几个红球、几个白球，也就是所谓的分布函数），然后计算下一个摸出来的球是红球的概率。而统计学面对的是一个黑箱子，你只看得到每次摸出来的是红球还是白球，然后需要猜测这个黑箱子的内部结构，例如红球和白球的比例是多少？
在这里插入图片描述
总结来说就是：通过已知的概率模型来精确的计算各种结果的可能性就是概率论；根据观测的结果来推断模型的不确定性就是统计学。

贝叶斯公式本质：执果索因，在知道结果的情况下去推断原因的方法。

贝叶斯定理的推导始于条件概率，条件概率可以定义为：在事件B发生的前提下，事件A发生的概率，数学上用P(A|B)来表示这个条件概率，其数学表达为：
$P(A|B)=\frac{P(AB)}{P(B)} （1）$
举例来说，学校里60%是男生，40%是女生，男生留长发的概率是20%，女生留长发的概率是80%，那么校园里一个留长发的学生，是女生的概率为多少？
对于这个问题，我们假设A代表”学生是女生“这一事件，B代表”学生留长发“这一事件，那么，公式1中 $P (B) = P (A) P (B ∣ A) + P (A^{'}) P (B ∣ A^{'}) = 0.4 * 0.8 + 0.6 * 0.2$
我们可以发现这其实就是全概率公式，表达的含义是学生留长发的概率，包括了两部分，长发男生和长发女生；同样地，可以得到：
$P(B|A)=\frac{P(BA)}{P(A)} （2）$
公式（1）等式两边乘以P(B)，公式（2）等式两边乘以P(A)，得到：
$P (A B) = P (A ∣ B) P (B) （ 3 ）$
$P (B A) = P (B ∣ A) P (A) （ 4 ）$
由于P(AB)=P(BA)，最终得到贝叶斯公式：
$P(A|B)=\frac{P(B|A)P(A)}{P(B)} （5）$
其中，分母部分是全概率，P(A)是先验概率，我们最终要求的P(A|B)是后验概率。

中文分词

隐马尔可夫模型（HMM）是将分词作为字在字符串中的序列标注任务来实现的，其基本思路是：每个字在构造一个特定的词语时占据一个确定的构词位置，现规定每个字最多只有4个构词位置，即B（词首）、M（词中）、E（词尾）、S（单独成词）。

对于句子“中文/分词/是/文本处理/不可或缺/的/一步！”，可以直接表示成“中/B文/E分/B词/E是/S文/B本/M处/M理/E不/B可/M或/M缺/E的/S一/B步/E！/S”

用数学抽象表示为：用 x=c1c2…cn 代表输入的句子，n为句子长度，ci表示第i个字符；
y=y1y2…yn 代表输出的标签，那么理想的输出为：
$y m a x = m a x P (y 1 y 2 . . . y n ∣ c 1 c 2 . . . c n) （ 6 ）$

在分词任务上，y即为B、M、E、S这4中标签，c为诸如“中”“文”等句子中的每个字（包括标点），这里引入独立性假设，即每个字的输出仅与当前字有关，于是能得到：
$P (y 1 y 2 . . . y n ∣ c 1 c 2 . . . c n) = P (y 1 ∣ c 1) P (y 2 ∣ c 2) . . . P (y n ∣ c n) （ 7 ）$

但是这种方法完全没有考虑上下文，容易出现分词不合理的情况，例如BBB、BEM等输出结果。我们希望最大化P(y|x)，通过贝叶斯公式转换能得到，
$P(y|x)=\frac{P(x|y)P(y)}{P(x)} （8）$
x为给定的输入，因此P(x)计算为常数，最大化P(y|x)，等价于最大化P(x|y)P(y)。针对P(x|y)P(y)做马尔科夫假设，得到：
$P (x ∣ y) = P (x 1 ∣ y 1) P (x 2 ∣ y 2) . . . P (x n ∣ y n) （ 9 ）$
$P (y) = P (y 1) P (y 2 ∣ y 1) P (y 3 ∣ y 1, y 2) . . . P (y n ∣ y 1, y 2, . . ., y n - 1) （ 10 ）$
实际上，HMM做了另一个假设——齐次马尔可夫假设，每个输出仅与上一个输出有关：
$P (y) = P (y 1) P (y 2 ∣ y 1) P (y 3 ∣ y 2) . . . P (y n ∣ y n - 1) （ 11 ）$
于是，
$P (x ∣ y) P (y) = P (x 1 ∣ y 1) P (y 2 ∣ y 1) P (x 2 ∣ y 2) P (y 3 ∣ y 2) . . . P (y n ∣ y n - 1) P (x n ∣ y n)$
在HMM中，将P(xk|yk)成为发射概率，P(yk|yk-1)称为转移概率，通过设置某些P(yk|yk-1)=0来排除不合理标签组合。最后利用Viterbi算法来求解，此处不再赘述。