朴素贝叶斯 Naive Bayess 笔记-CSDN博客

本文链接：https://blog.csdn.net/qq_41815611/article/details/108694970

1 前言

朴素贝叶斯的”朴素“在于其两个假设：

特征之间相互独立
特征之间同等重要

特征也就是 $X = (x_1, x_2, x_3 ... x_n )^T$ 的每一个分量。

2 贝叶斯定理

$\frac{P(B|A)P(A)}{P(B)}$

A是结果，B是原因
$P (A)$ 是先验概率，一般人为给出
$P (A ∣ B)$ 是后验概率，也就是我们想求解的概率
$P (B ∣ A)$ 是条件概率或似然概率，是根据统计结果来的
贝叶斯公式就是：后验 = 先验 * 似然

可以用图片帮助理解：
在这里插入图片描述
根据条件概率公式：
$\frac{P(AB)}{P(B)} \qquad P(B|A) = \frac{P(AB)}{P(A)}$ $P (A B) = P (A ∣ B) P (B) = P (B ∣ A) P (A)$

3 朴素贝叶斯用于分类问题

对于分类问题，设 $C_k$ 是类别， $X = (x_1, x_2, x_3 ... x_n )^T$ 是特征，用n维向量表示。
$P(C_k|X) = \frac{P(C_k)P(X|C_k)}{P(X)}$ 对于一个给定的样本 $X$ ，我们需要确定其最可能属于的类别 $C_k$ ，由于 $X$ 是给定的， $P (X)$ 是定值， $X$ 属于类别 $C_k$ 的概率正比于：
$P(C_k|X) \propto P(C_k)P(X|C_k)$ 对于每一个 $X$ 可能属于的类别 $C_i$ ，只需计算出 $P(C_i)P(X|C_i)$ ，值最大的类别就是 $X$ 最可能属于的类别。

4 独立性假设

$X = (x_1, x_2, x_3 ... x_n )^T$ ，对于朴素贝叶斯中的内容，根据链式法则：

$\qquad P(x_1, x_2, x_3...x_n|C_k)$

$P(x_1,x_2,x_3...x_{n-1}|C_k,x_n)P(x_n|C_k)$

$P(x_1,x_2,x_3...x_{n-2}|C_k,x_{n-1},x_n)P(x_{n-1}|C_k,x_n)P(x_n|C_k)$

$= > . . .$

$P(x_1|C_k,x_2,x_3...x_n)P(x_2|C_k,x_3...x_n)...P(x_{n-1}|C_k,x_n)P(x_n|C_k)$
根据朴素贝叶斯的假设，各个特征之间的独立的，也就是说 $x_i$ 的概率不受 $x_j$ 影响，即
$P(x_i|C_k,x_i+1...x_n) = P(x_i|C_k)$ 因此 $P(X|C_k)=\prod_{i=1}^{n}P(x_i|C_k)$
朴素贝叶斯公式写作：
$P(C_k|X) \propto P(C_k)\prod_{i=1}^{n}P(x_i|C_k)$

5 朴素贝叶斯用于文本情感分类

训练集给出了若干积极与消极的文本，任务是对训练集中的文本进行分类。

有两个类别， $C_o$ 是积极， $C_1$ 是消极。
每一个词项看作一个特征 $x_i$ 。
用训练集中积极和消极文本所占的比例作为 $P(C_0)$ 和 $P(C_1)$ 。
用 $x_i$ 在 $C_k$ 集合下的 $t f - i d f$ 值作为 $P(x_i|C_k)$ ，即
$tf-idf(x_i)=\frac{{word\_count(x_i)}}{words(C_k)}log\frac{docs(C_k)}{word\_docs(x_i)}$
这里做加1平滑：
$\frac{{word\_count(x_i)}+1}{words(C_k)+1}$ $log\frac{docs(C_k)+1}{word\_docs(x_i)+1}+1$
同时，注意到 $P(X|C_k)$ 正比于的式子是连乘，为了避免小数点累乘，将其每一项取 $l o g$ ，改为连加 $P(C_k|X) \propto log(P(C_k))+\sum_{i=1}^{n}log(P(x_i|C_k))$
在python的texts_to_matrix函数中，通过mode='tfidf'计算词项 $x_i$ 在文档 $doc_j$ （属于类别 $C_k$ ）中的 $t f - i d f$ 的值，计算公式为 $tf=1+log(n(x_i, doc_j))$ $idf=log(1+\frac{N(C_k)}{1+n(x_i,C_k)})$ $t f$ 值与 $x_i$ 在文档 $doc_j$ 中出现的次数有关， $i d f$ 对于每个词项都是一样的，与文档无关，是通过 $C_k$ 类别的文档总数和包含该词项的文档数决定的