【ML】朴素贝叶斯模型及文本分类

最新推荐文章于 2022-12-08 19:56:49 发布

一只干巴巴的海绵

最新推荐文章于 2022-12-08 19:56:49 发布

阅读量428

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/Hanx09/article/details/104873352

版权

机器学习专栏收录该内容

26 篇文章 2 订阅

订阅专栏

朴素贝叶斯（naive Bayes）法是基于贝叶斯定理与特征条件独立假设的分类方法。

朴素贝叶斯模型的参数

设输入空间 $\mathcal{X}\subseteq\mathcal{R}^n$ 为 $n$ 维向量的集合，输出空间为类标记集合 $\mathcal{Y}=\{c_1,c_2,...,c_K\}$ 。 $X$ 是定义在输入空间 $\mathcal{X}$ 上的随机向量， $Y$ 是定义在输出空间 $\mathcal{Y}$ 上的随机变量。 $P (X, Y)$ 是 $X$ 和 $Y$ 的联合概率分布。训练数据集 $T=\{(x_1,y_1),(x_2,y_2),...,(x_n,y_n)\}$ 由 $P (X, Y)$ 独立同分布产生。
朴素贝叶斯法学习数据的生成机制 $P (X, Y)$ ，属于生成模型。由乘法公式：
$P (X, Y) = P (X ∣ Y) P (Y)$
倘若知道先验概率分布
$P(Y=c_k),\quad k=1,2,...,K$
和条件概率分布
$P(X=x|Y=c_k)=P(X^{(1)}=x^{(1)},...,x^{(n)}=x^{(n)}|Y=c_k),\quad k=1,2,...,K$
就可以得到联合概率分布 $P (X, Y)$ 。
条件概率分布 $P(X=x|Y=c_k)$ 有指数级数量的参数，其估计实际是不可行的。因此朴素贝叶斯法对条件概率分布作了条件独立性假设：
$P(X=x|Y=c_k)=P(X^{(1)}=x^{(1)},...,X^{(n)}=x^{(n)}|Y=c_k)=\prod_{j=1}^nP(X^{(j)}=x^{(j)}|Y=c_k)$
条件独立是指用于分类的特征在类确定的条件下都是条件独立的。条件独立假设是一个较强的假设，这一假设使朴素贝叶斯法变得简单，但有时会牺牲一定的分类准确率。
朴素贝叶斯模型的参数为 $P(Y=c_k), k=1,2,...,K$ 及 $P(X^{(j)}=x^{(j)}|Y=c_k), k=1,2,...,K$ 。

利用朴素贝叶斯模型分类

朴素贝叶斯法分类时，对给定的输入 $x$ ，通过学习到的模型计算后验概率分布 $P(Y=c_k|X=x)$ ，将后验概率最大的类作为 $x$ 的类输出。后验概率的计算根据贝叶斯定理进行：
$P(Y=c_k|X=x)=\frac{P(X=x|Y=c_k)P(Y=c_k)}{\sum_kP(X=x|Y=c_k)P(Y=c_k)}$
由条件独立性假设
$P(Y=c_k|X=x)=\frac{P(Y=c_k)\prod_{j=1}^nP(X^{(j)}=x^{(j)}|Y=c_k)}{\sum_kP(Y=c_k)\prod_{j=1}^nP(X^{(j)}=x^{(j)}|Y=c_k)},\quad k=1,2,...,K$
于是，朴素贝叶斯分类器可表示为
$y=f(x)=\arg\max_{c_k}\frac{P(Y=c_k)\prod_{j=1}^nP(X^{(j)}=x^{(j)}|Y=c_k)}{\sum_kP(Y=c_k)\prod_{j=1}^nP(X^{(j)}=x^{(j)}|Y=c_k)}$
上式中分母对所有 $c_k$ 都是相同的，所以
$y=\arg\max_{c_k} P(Y=c_k)\prod_{j=1}^nP(X^{(j)}=x^{(j)}|Y=c_k)$

后验概率最大化的含义

朴素贝叶斯法将实例分到后验概率最大的类中，这等价于期望风险最小化。假设选择0-1损失函数：
$L(Y,f(X))=\begin{cases} 1,\quad Y\neq f(X)\\ 0,\quad Y=f(X) \end{cases}$
其中 $f (X)$ 是分类决策函数。此时，期望风险函数为
$R_{exp}(f)=E_{X,Y}[L(Y,f(X))]$
期望是对联合分布 $P (X, Y)$ 取的。可写
$R_{exp}(f)=E_X[\sum_{k=1}^KL(c_k,f(X))P(c_k|X)]$
为了使期望风险最小化，只需对 $X = x$ 逐个极小化。对每个 $X = x$ ，
$\begin{aligned} f(x)&=\arg\min_{y\in\mathcal{Y}}\sum_{k=1}^KL(c_k,f(X))P(c_k|X=x)\\ &=\arg\min_{y\in\mathcal{Y}}\sum_{k=1}^KP(y\neq c_k|X=x)\\ &=\arg\min_{y\in\mathcal{Y}}(1-P(y= c_k|X=x))\\ &=\arg\max_{y\in\mathcal{Y}}P(y= c_k|X=x) \end{aligned}$
这样，期望最小化准则就得到了后验概率最大化准则：
$f(x)=\arg\max_{c_k}P(c_k|X=x)$

朴素贝叶斯模型的参数估计

最大似然估计

先验概率 $P(Y=c_k)$ 的极大似然估计：
$P(Y=c_k)=\frac{\sum_{i=1}^nI\{y_i=c_k\}}{n},\quad k=1,2,...,K$
设第 $j$ 个特征 $x^{(j)}$ 可能的取值集合为 ${a_{i1},a_{j2},...,a_{jS_j}\}$ ，条件概率 $P(X^{(j)}=a_{jl}|Y=c_k)$ 的极大似然估计：
$P(X^{(j)}=a_{jl}|Y=c_k)=\frac{\sum_{i=1}^nI\{x_i^{(j)}=a_{jl},y_i=c_k\}}{\sum_{i=1}^nI\{y_i=c_k\}}$
$j=1,2,...,n;l=1,2,...,S_j;k=1,2,...,K$
其中， $x_i^{(j)}$ 是第 $i$ 个样本的第 $j$ 个特征； $a_{jl}$ 是第 $j$ 个特征可能取的第 $l$ 个值。

朴素贝叶斯算法
输入：训练数据集 $T=\{(x_1,y_1),(x_2,y_2),...,(x_n,y_n)\}$ ，其中 $x_i=(x_i^{(1)},x_i^{(2)},...,x_i^{n)})^T$ ， $x_i^{(j)}$ 是第 $i$ 个样本的第 $j$ 个特征， $x_i^{(j)}\in\{a_{j1},a_{j2},...,a_{jS_j}\}$ ， $a_{jl}$ 是第 $j$ 个特征可能取的第 $l$ 个值， $j=1,2,...,n;l=1,2,...,S_j$ ， $y_i\in\{c_1,c_2,...,c_K\}$ ；实例 $x$ ；
输出：实例 $x$ 的分类。

计算先验概率及条件概率：
$P(Y=c_k)=\frac{\sum_{i=1}^nI\{y_i=c_k\}}{n},\quad k=1,2,...,K$
$P(X^{(j)}=a_{jl}|Y=c_k)=\frac{\sum_{i=1}^nI\{x_i^{(j)}=a_{jl},y_i=c_k\}}{\sum_{i=1}^nI\{y_i=c_k\}}$
$j=1,2,...,n;l=1,2,...,S_j;k=1,2,...,K$
对于给定的实例 $x=(x^{(1)},x^{(2)},...,x^{n)})^T$ ，计算
$P(Y=c_k)\prod_{j=1}^nP(X^{(j)}=x^{(j)}|Y=c_k),\quad k=1,2,...,K$
确定实例 $x$ 的类
$y=\arg\max_{c_k} P(Y=c_k)\prod_{j=1}^nP(X^{(j)}=x^{(j)}|Y=c_k)$

贝叶斯估计

用极大似然估计可能会出现所要估计的概率值为0的情况，这时会影响到后验概率的计算结果，使分类产生偏差。解决这一问题额方法是采用贝叶斯估计。
条件概率的贝叶斯估计：
$P_\lambda(X^{(j)}=a_{jl}|Y=c_k)=\frac{\sum_{i=1}^nI\{x_i^{(j)}=a_{jl},y_i=c_k\}+\lambda}{\sum_{i=1}^nI\{y_i=c_k\}+S_j\lambda}$
式中 $\lambda\geq 0$ 。等价于在随机变量各个取值的频数上赋予一个正数 $\lambda>0$ 。当 $\lambda=0$ 时是极大似然估计，当 $\lambda=1$ 时称为拉普拉斯平滑。
先验概率的贝叶斯估计：
$P_\lambda(Y=c_k)=\frac{\sum_{i=1}^nI\{y_i=c_k\}+\lambda}{n+K\lambda},\quad k=1,2,...,K$

朴素贝叶斯文本分类

寻找文本的某些特征，然后根据这些特征将文本归为某个类。
假设现有的类别 $C={c1,c2,……cm}$ ，使用监督式机器学习方法对文本进行分类：首先假设已经有分好类的N篇文档： $d_1,c_1)、(d_2,c_2)、(d_3,c_3)……(d_N,c_N)$
目标是：寻找一个分类器，这个分类器能够，当丢给它一篇新文档d，它就输出d （最有可能）属于哪个类别c。

词袋模型

词袋模型是表示文本特征的一种方式。
给定一篇文档，它会有很多特征，比如文档中每个单词出现的频率、某些单词出现的位置、单词的长度……而词袋模型只考虑一篇文档中单词出现的频率(次数)，用每个单词出现的频率作为文档的特征（或者说用单词出现的频率来代表该文档）。

朴素贝叶斯分类器

用于文本分类的朴素贝叶斯模型有两种：

多项式模型（multinomial model）：词频型，即以单词为计算粒度，单词出现的次数为特征；
伯努利模型（Bernoulli model）：文档型，即以文件为计算粒度，特征取值是布尔型，单词是否在文档中出现为特征。

给定一篇文档d，文档d最有可能属于哪个类，数学表达为：
$\hat{c}=\arg\max_{c\in C}P(c|d)$
由贝叶斯公式，
$\hat{c}=\arg\max_{c\in C}P(c|d)=\arg\max_{c\in C}\frac{P(d|c)P(c)}{P(d)}=\arg\max_{c\in C}P(d|c)P(c)$
使用词袋模型来表示文档d，设单词表为 $V=\{w_1,w_2,...,w_n\}$ ，文档d的每个特征表示为： $d=\{f_1,f_2,……f_n\}$ ，其中 $f_i$ ，在多项式模型中为单词 $w_i$ 出现的频率，在伯努利模型中取值0、1，表示单词是否出现在文档中，则：
$\hat{c}=\arg\max_{c\in C}P(f_1,f_2,……f_n|c)P(c)$
假设文档d各个特征之间是相互独立的（朴素贝叶斯），则：
$\hat{c}=\arg\max_{c\in C}P(c)\prod_{w_i}P(f_i|c)$
若干个很小的概率值直接相乘，得到的结果会越来越小。为了避免计算过程出现下溢(underflower)，取对数：
$\hat{c}=\arg\max_{c\in C}[\log P(c)+\sum_{w_i}\log P(f_i|c)]$

训练贝叶斯分类器（参数估计）

多项式朴素贝叶斯模型和伯努利朴素贝叶斯模型的计算粒度不一样，因此二者的先验概率和条件概率的计算方法不同。记：

$N$ ：文档总数；
$W$ ：所有文档包含的所有单词总个数（允许重复）；
$V$ ：所有文档包含的单词构成的单词表（不重复）， $∣ V ∣ = n$ 表示 $V$ 中元素个数；
$N_c$ ：类别为 $c$ 的文档总数；
$W_c$ ：类别为 $c$ 的文档所含单词总数（允许重复）；
$W_{ic}$ ：单词 $w_i$ 在所有类别为c的文档中出现的总单词次数（允许重复）。
$N_{ic}$ ：在所有类别为c的文档中出现单词 $w_i$ 的总文档次数。

多项式模型

$P (c)$ 的意思是：在全部文档出现的所有单词中，类别为c的文档出现的单词总数：
$P(c)=\frac{W_c}{W}$
$P(w_i|c)$ 表示：在类别为c的全部文档中出现的所有单词中，单词 $w_i$ 在这些文档（类别为c）中出现的频率，
$P(w_i|c)=\frac{W_{ic}+1}{\sum_{w_i\in V}(W_{ic}+1)}=\frac{W_{ic}+1}{W_c+|V|}$

伯努利模型

$P (c)$ 的意思是：在所有的文档中，类别为c的文档出现的概率有多大。
$\hat{P}(c)=\frac{N_c} {N}$
$P(w_i|c)$ 表示：训练数据集中所有类别为c的文档，单词 $w_i$ 在这些文档（类别为c）中出现的频率，
$\hat{P}(w_i|c)=\frac{N_{ic}+1}{N_c+2}$