朴素贝叶斯

最新推荐文章于 2021-02-16 07:06:53 发布

jcsyl_mshot

最新推荐文章于 2021-02-16 07:06:53 发布

阅读量309

点赞数

分类专栏： NLP

本文链接：https://blog.csdn.net/jcsyl_mshot/article/details/80729541

版权

NLP 专栏收录该内容

10 篇文章 0 订阅

订阅专栏

1. 概念

朴素贝叶斯是基于贝叶斯定理与特征条件独立性假设的分类方法。对于给定的训练数据集，首先基于特征条件独立假设学习输入/输出的联合概率分布；然后基于此模型，对于给定输入 $x$ ，利用贝叶斯定理求出后验概率最大的输出 $y$ .

2. 基本方法

使用朴素贝叶斯法分类时，对给定的输入x，我们想知道其属于 $c_k$ 的概率，即:
$P(Y=c_k|X=x)=P(Y=c_k|X(1)=x(1),....,X(n)=x(n))$

贝叶斯定理告诉我们:
$P(A|B)=\frac{P(B|A) \cdot P(A)}{P(B)}$
由此我们可以得到:
$P(Y=c_k|X=x)=\frac{P(X=x|Y=c_k)⋅P(Y=c_k)}{P(X=x)}$

也就是说，只要我们知道 $P(X=x|Y=c_k)，P(Y=c_k)$ 以及 $P(X=x)$ ，那么我们就可以求出P(Y=ck|X=x)的值.那么该如何获得这三个概率值呢？带着这个疑问，我们首先给出朴素贝叶斯法的条件独立性假设：
$P(X=x|Y=c_k)=P(X(1)=x(1),….,X(n)=x(n)|Y=c_k) =∏_{j=1}^nP(X(j)=x(j)|Y=ck)$

这个假设告诉我们，每个类别的样本的各个特征之间是相互独立的，因此在计算的时候我们就可以将其拆成连乘的形式。由于这是一个较强的假设，朴素贝叶斯算法也由此得名。

接下来，我们将分别求出上文提到的三个概率： $P(X=x|Y=c_k)$ ， $P(Y=c_k)$ 以及 $P(X=x)$

假设训练数据集为:
$T={(x_1,y_1),(x_2,y_2),....(x_N,y_N)}$
首先由上文我们已经知道:
$P(X=x|Y=c_k)==∏_{j=1}^nP(X(j)=x(j)|Y=ck)$
假设在训练集T中，类别为 $c_k$ 的样本个数为 $N_k$ ,在类别为 $c_k$ 的所有样本中 $X^{(j)}=x^{(j)}$ 的样本个数为 $n_jk$ ，那么.
$P(X^{(j)}=x^{(j)}|Y=c_k)=\frac{n_{jk}}{N_k}$
进一步：
$P(X=x|Y=c_k)=∏_{j=1}^n\frac{n_{jk}}{N_k}$

最后，我们来求P(X=x)的值。

$P(X=x)=∑_kP(X=x,Y=c_k)=∑_kP(X=x|Y=c_k)⋅P(Y=c_k)$
即
$P(X=x)=∑_kP(Y=c_k)∏_{j=1}^nP(X^{(j)}=x^{(j)}|Y=c_k)$
我们注意到，求解 $P(Y=c_k|X=x)$ 时，我们给定一个输入x，对于不同的类别 $c_k$ ，P(X=x)的值是相同的，也就是说它的值不会影响我们对于输入实例属于某个类别的判定，因此我们只需设定

由此我们可以得到
$P(Y=c_k|X=x)=P(Y=c_k)⋅∏_{j=1}^nP(X^{(j)}=x^{(j)}|Y=c_k)$
对于给定的输入x,要知道其属于哪个类别，只需求出每个类别下的概率P(Y=ck|X=x)，然后找出概率最大的类别，那么输入实例就属于这个类别。

3. 实验

这里写图片描述

类标记y的取值就两个：1或-1，要确定 $x=(2,S)^T$ 的类标记，我们只需求 $P(Y=1|X=(2,S)^T)$ 和 $P(Y=−1|X=(2,S)^T)$ 的概率，然后比较两者大小即可确定。

$P(Y=−1)=\frac{6}{15}$
$P(Y=1)=\frac{9}{15}$
$P(X(1)=2|Y=1)=\frac{3}9$
$P(X(2)=S|Y=1)=\frac{1}9$
$P(X(1)=2|Y=−1)=\frac{2}6$
$P(X(2)=S|Y=−1)=\frac{3}6$
所以
$P(Y=1|X=(2,S)^T)=\frac{9}{15} ⋅\frac{3}9⋅\frac{1}9 =\frac{1}45$
$P(Y=−1|X=(2,S)T)=\frac{6}{15}⋅\frac{2}6⋅\frac{3}6=\frac{1}15$
因为 $P(Y=1|X=(2,S)^T)<P(Y=−1|X=(2,S)^T)$ ，
所以x=(2,S)T的类标记为-1。

jcsyl_mshot

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
朴素贝叶斯

1. 概念朴素贝叶斯是基于贝叶斯定理与特征条件独立性假设的分类方法。对于给定的训练数据集，首先基于特征条件独立假设学习输入/输出的联合概率分布；然后基于此模型，对于给定输入xxx，利用贝叶斯定理求出后验概率最大的输出 yyy.2. 基本方法使用朴素贝叶斯法分类时，对给定的输入x，我们想知道其属于ckckc_k的概率，即: P(Y=ck|X=x)=P(Y=ck|X(1)=x(1),....
复制链接

扫一扫

专栏目录