统计概率模型-朴素贝叶斯

最新推荐文章于 2024-06-19 08:35:14 发布

myazi

最新推荐文章于 2024-06-19 08:35:14 发布

阅读量1k

点赞数

分类专栏：机器学习机器学习

本文链接：https://blog.csdn.net/u010865478/article/details/82695396

版权

机器学习同时被 2 个专栏收录

42 篇文章 5 订阅

订阅专栏

机器学习

30 篇文章 2 订阅

订阅专栏

统计概率模型

1、高斯判别分析

2、朴素贝叶斯

3、隐马尔可夫模型

4、最大熵马尔科夫模型

5，条件随机场

6，马尔科夫决策过程

二、朴素贝叶斯

一、朴素贝叶斯

朴素贝叶斯模型也是一个典型的生成模型，一般用来处理非数值数据。其核心假设是特征之间的条件概率是相互独立的。同样由贝叶斯公式有：

P (Y | X) = P ( X | Y ) P ( Y ) P ( X ) = P ( Y ) P ( X ) \prod j = 1 n p (x j | Y)

$P(Y|X)=\frac{P(X|Y)P(Y)}{P(X)}\\ =\frac{P(Y)}{P(X)}\prod_{j=1}^{n}p(x_{j}|Y)$
下面以垃圾邮件分类介绍两类问题的朴素贝叶斯模型：

垃圾邮件分类任务是一个基本文本分类任务，涉及到NLP的初步知识-文本的One-hot表示。由于机器学习模型通常是一个数学模型，而非数值型属性是不能直接处理，所以一般对邮件的特征进行编码。首先将所有的邮件中出现的词统计出来作为一个词典，并对每一个词进行编码向量化（即词序）。一封邮件对应的One-hot表示如下：

x (i) = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ 10.0.1 ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥

$x^{(i)}=\begin{bmatrix} 1\\ 0\\ .\\ 0\\ .\\ 1 \end{bmatrix}$
其中

i i $i$ 表示第

i

$i$ 封邮件，

x(i)j∈(0,1) x j ( i ) ∈ ( 0 , 1 ) $x_{j}^{(i)}\in {(0,1)}$ ，

j j $j$ 表示j词典中的第

j

$j$ 个词，如果第

j j $j$ 个词在第

j

$j$ 封邮件中出现则，

x(i)j=1 x j ( i ) = 1 $x_{j}^{(i)}=1$ ，反之为

0 0 $0$ 。可以看出这种表示忽略了文本的大量信息，上下文信息，词出现的次数等。

由上面的公式有，一封邮件是垃圾邮件的概率可以表示为下式：

P (Y = 1 | X) = \frac{P (X | Y = 1) P (Y = 1)}{P (X)}

$P(Y=1|X)=\frac{P(X|Y=1)P(Y=1)}{P(X)}$
其中似然函数

P(X|Y=1) P ( X | Y = 1 ) $P(X|Y=1)$ 为在垃圾邮件下产生

X X $X$ 的条件概率，

P (Y = 1)

$P(Y=1)$ 为垃圾邮件的先验概率，

P(X)=∑ΩP(X) P ( X ) = ∑ Ω P ( X ) $P(X)=\sum_{\Omega }P(X)$ 对于所有样本都是一致，近似忽略。

由朴素贝叶斯的条件概率独立性假设有条件概率如下：

P (x 1, . . . x j . . x 5000 | y = 1) = P (x 1 | y = 1) \cdot . . \cdot P (x j | y = 1, x j - 1 . . . x 1) \cdot . . \cdot P (x 5000 | y = 1, x 4999 . . . x 1) = P (x 1 | y = 1) \cdot . . \cdot P (x j | y = 1) \cdot . . \cdot P (x 5000 | y = 1) = \prod j = 1 n P (x j | y = 1)

$P(x_{1},...x_{j}..x_{5000}|y=1)=P(x_{1}|y=1)\cdot ..\cdot P(x_{j}|y=1,x_{j-1}...x_{1})\cdot ..\cdot P(x_{5000}|y=1,x_{4999}...x_{1})\\ =P(x_{1}|y=1)\cdot .. \cdot P(x_{j}|y=1)\cdot..\cdot P(x_{5000}|y=1)\\ =\prod_{j=1}^{n}P(x_{j}|y=1)$
其中

j j $j$ 表示第

j

$j$ 个特征。所以，对于一封邮件属于哪一类的概率为都有：

P (Y = k | X (i)) = = \prod j = 1 n P (y = k | x j)

$P(Y=k|X^{(i)})==\prod_{j=1}^{n}P(y=k|x_{j})$
邮件之间独立，所以目标函数最大化所有邮件属于各自类的概率为：

max P (Y = k | X) = \prod i = 1 m P ( x ( i ) | y ( i ) = k ) P ( y ( i ) = k ) P ( x ( i ) ) = \prod i = 1 m \prod j = 1 n P ( x ( i ) j | y ( i ) = k ) P ( y ( i ) = k ) P ( x ( i ) ) \approx max \prod i = 1 m \prod j = 1 n P (x (i) j | y (i) = k) P (y (i) = k)

$\max P(Y=k|X)= \prod_{i=1}^{m} \frac{P(x^{(i)}|y^{(i)}=k)P(y^{(i)}=k)}{P(x^{(i)})}\\ =\prod_{i=1}^{m} \prod_{j=1}^{n}\frac{P(x_{j}^{(i)}|y^{(i)}=k)P(y^{(i)}=k)}{P(x^{(i)})}\\ \approx \max\prod_{i=1}^{m} \prod_{j=1}^{n} P(x_{j}^{(i)}|y^{(i)}=k)P(y^{(i)}=k)$
从上式可以看出朴素贝叶斯的参数是

P(xj|y=k) P ( x j | y = k ) $P(x_{j}|y=k)$

，， $，$

P (y = k)

$P(y=k)$ ，即所有邮件类别的先验，以及在某一类下出现某个词的概率。由极大似然估计参数值即为其期望。

P (y = k) = \sum i = 1 m 1 ( y ( i ) = k ) m, k = 0, 1

$P(y=k)=\sum_{i=1}^{m}\frac{1(y^{(i)}=k)}{m} , k=0,1$

P (x (i) j = a j l | y (i) = k) = \sum m i = 1 1 ( x ( i ) j = a j l , y ( i ) = k ) \sum m i = 1 1 ( y ( i ) = k ), i = 1.. m, j = 1, 2.. n

$P(x_{j}^{(i)}=a_{jl}|y^{(i)}=k)=\frac{\sum_{i=1}^{m}1({x_{j}^{(i)}}=a_{jl},y^{(i)}=k)}{\sum_{i=1}^{m}1(y^{(i)}=k)} ,i=1..m,j=1,2..n$

其中 $k$ 表示类别，对应垃圾邮件分类取值为 $（0,1），$ $i$ 表示第 $i$ 个特征， $l$ 表示特征的取值。由于垃圾邮件中采用one-hot编码，所以 $x_{i}$ 的取值为 $（0,1）$ ， $1$ 表示出现。当以上参数确定之后，对于一封新的邮件，根据估计的参数和贝叶斯公式求得样本属于哪一类的概率。最后一封邮件属于哪一类的概率参数表示如下：

P (Y = k | X^{(i)}) = \prod_{j = 1}^{n} \frac{P (x_{j}^{(i)} = a_{j l} | y) P (y = k)}{P (x)}

$P(Y=k|X^{(i)})=\prod_{j=1}^{n}\frac{P(x_{j}^{(i)}=a_{jl}|y)P(y=k)}{P(x)}$
由于one-hot编码比较特殊，

P(xj=0|Y=k)+P(xj=1|Y=k)=1,ajl∈{0,1} P ( x j = 0 | Y = k ) + P ( x j = 1 | Y = k ) = 1 , a j l ∈ { 0 , 1 } $P(x_{j}=0|Y=k)+P(x_{j}=1|Y=k)=1,a_{jl}\in \{0,1\}$ 。由于所有类的概率加和为

1 1 $1$ ，垃圾邮件为二分类，所以邮件属于概率大于

\frac{1}{2}

$\frac{1}{2}$ 的那一类。

为了使模型更具普适性，考虑到当某一特征没有在训练集中出现过，即某一个单词在某一类下没有出现过，或者某一单词在某一类下都出现过（意味着不出现的条件概率为0）。但不能说该单词在这一类下的条件概率为0。又或者在所有类中都未出现（即原始训练集中没有的词，而词典中有的词，即词典不依赖于训练集)。当来一个新样本时，如果不做处理，那么只要有一个分量的概率为0，由于特征之间的条件概率独立，连乘形式只要有一个为0，即整个概率为0，无意义。

拉普拉斯平滑：

P (x j = a j l | y (j) = k) = \sum m i = 1 1 ( x ( i ) j = a j l , y ( i ) = k ) + 1 \sum m i = 1 1 ( y ( i ) = k ) + Ω ( a j l ), i = 1.. m, j = 1.. n

$P(x_{j}=a_{jl}|y^{(j)}=k)=\frac{\sum_{i=1}^{m}1({x_{j}^{(i)}}=a_{jl},y^{(i)}=k)+1}{\sum_{i=1}^{m}1(y^{(i)}=k)+\Omega(a_{jl})} ,i=1..m,j=1..n\\$
其中

Ω(ajl) Ω ( a j l ) $\Omega(a_{jl})$ 为第

j j $j$ 个特征分量

x_{j}

$x_{j}$ 的可能取值数。

二、N元多项分布模型

同样，上述贝叶斯模型中只考虑单词是否出现，即单词特征 $x_{j}$ 服从伯努利分布，样本 $X^{(i)}$ 服从n次独立的伯努利分布。而忽略了一个单词可能出现次数对邮件分类的影响。假设要统计某一单词出现的次数，那么有 $x_{j} \in\{0,1,...k\}$ 多项分布。只考虑单词是否出现的贝叶斯模型叫multi-variate Bernoulli event model，后者叫multinational event model。
同样以邮件分类问题介绍multinational event model，在之前的模型中，我们首先建立词典，并且特征向量长度为词典长度，并且从词典出发，对于邮件出现过的单词，在对应词典的位置标记为 $1$ ，反之标记为 $0$ 产生一个特征向量 $x_{j}$ 。而multinational event model则从邮件出发，表示邮件中第 $j$ 个单词，其值表示第 $j$ 个单词在字典中出现的位置，那么 $x_{i}$ 的取值则有 $|V|$ ，其中V表示字典长度。这样一封邮件可以表示为 $(x_{1},x_{2},...,x_{n_{i}})$ ， $n_{i}$ 表示第 $i$ 封邮件的长度。这相当于掷一枚有V面的骰子 $n$ 次，将观测值记录下来形成一封邮件。假设出现某一点的情况与第几次掷无关，也就是单词在邮件中出现的位置无关，而且每一次投掷都是独立的，即单词之间出现的事件是独立的。

文档的表示：

1)one-hot表示

x = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ x 1 x 2 x 3 . x 3234 . x 50000 ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ 100.1.0 ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥

$x=\begin{bmatrix} x_{1}\\ x_{2}\\ x_{3}\\ .\\ x_{3234}\\ .\\ x_{50000} \end{bmatrix}=\begin{bmatrix} 1\\ 0\\ 0\\ .\\ 1\\ .\\ 0 \end{bmatrix}$
2)编号表示

x = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ x 1 x 2 x 3 . x 45 . x 203 ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ 47903468924567.23.415 ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥

$x=\begin{bmatrix} x_{1}\\ x_{2}\\ x_{3}\\ .\\ x_{45}\\ .\\ x_{203} \end{bmatrix}=\begin{bmatrix} 4790\\ 34689\\ 24567\\ .\\ 23\\ .\\ 415 \end{bmatrix}$
可以看出两者方式的样本表示不同之处在于一个以词典维度对邮件中的词是否出现进行

0−1 0 − 1 $0-1$ 编码，一个是以邮件维度对邮件中的词在词典中的编号进行编码，这就导致了两者表示的维度不同，特征服从的分布也不同。

一封邮件属于垃圾邮件的概率由贝叶斯公式有：

P (Y = 1 | X) = P ( X | Y = 1 ) P ( Y = 1 ) P ( X )

$P(Y=1|X)=\frac{P(X|Y=1)P(Y=1)}{P(X)}$
其中

P(X|Y=1) P ( X | Y = 1 ) $P(X|Y=1)$ 似然函数，在垃圾邮件下产生

X X $X$ 的条件概率，

P (Y = 1)

$P(Y=1)$ 为垃圾邮件的先验概率，

P(X)=∑ΩP(X) P ( X ) = ∑ Ω P ( X ) $P(X)=\sum_{\Omega }P(X)$ 对于所有样本都是一致，近似忽略。

由朴素贝叶斯的条件概率独立性假设有条件概率如下：

P (x 1, . . . x i . . x n j | y = 1) = P (x 1 | y = 1) \cdot . . . \cdot P (x j | y = 1, x j - 1 . . . x 1) \cdot . . . \cdot P (x n i | y = 1, x 4999 . . . x 1) = P (x 1 | y = 1) \cdot . . . \cdot P (x j | y = 1) \cdot . . . \cdot P (x n i | y = 1) = \prod j = 1 n i P (x j | y = 1)

$P(x_{1},...x_{i}..x_{n_{j}}|y=1)=P(x_{1}|y=1)\cdot ... \cdot P(x_{j}|y=1,x_{j-1}...x_{1})\cdot ...\cdot P(x_{n_{i}}|y=1,x_{4999}...x_{1})\\ =P(x_{1}|y=1)\cdot ... \cdot P(x_{j}|y=1)\cdot ...\cdot P(x_{n_{i}}|y=1)\\ =\prod_{j=1}^{n_{i}}P(x_{j}|y=1)$
其中

xj∈{0,1,...|V|} x j ∈ { 0 , 1 , . . . | V | } $x_{j} \in\{0,1,...|V|\}$ 。同样最大化似然函数：

max P (Y = k | X) = \prod i = 1 m P ( x ( i ) | y ( i ) = k ) P ( y ( i ) = k ) P ( x ( i ) ) = \prod i = 1 m \prod j = 1 n i P ( x ( i ) j | y ( i ) = k ) P ( y ( i ) = k ) P ( x ( i ) ) \approx max \prod i = 1 m \prod j = 1 n i P (x (i) j | y (i) = k) P (y (i) = k)

$\max P(Y=k|X)= \prod_{i=1}^{m}\frac{P(x^{(i)}|y^{(i)}=k)P(y^{(i)}=k)}{P(x^{(i)})}\\ =\prod_{i=1}^{m}\prod_{j=1}^{n_{i}} \frac{P(x_{j}^{(i)}|y^{(i)}=k)P(y^{(i)}=k)}{P(x^{(i)})}\\ \approx \max\prod_{i=1}^{m}\prod_{j=1}^{n_{i}} P(x_{j}^{(i)}|y^{(i)}=k)P(y^{(i)}=k)$
其中

ni n i $n_{i}$ 表示第

i i $i$ 封邮件的长度。所以上式中的参数有

P (y = k)

${P(y=k})$ ，

P(xj=av|y=k) P ( x j = a v | y = k ) $P(x_{j}=a_{v}|y=k)$ 。由最大似然估计有：

P (y = k) = \sum i = 1 m 1 ( y ( i ) = k ) m, k = 0, 1

$P(y=k)=\sum_{i=1}^{m}\frac{1(y^{(i)}=k)}{m} , k=0,1$

P (x j = a v | y (i) = k) = \sum m i = 1 1 ( x ( i ) j = a v , y ( i ) = k ) \sum m i = 1 1 ( y ( i ) = k ), a v \in {0, 1, . . . | V |}

$P(x_{j}=a_{v}|y^{(i)}=k)=\frac{\sum_{i=1}^{m}1({x_{j}^{(i)}}=a_{v},y^{(i)}=k)}{\sum_{i=1}^{m}1(y^{(i)}=k)} ,a_{v} \in \{0,1,...|V|\}$

其中 $x_{j}=a_{v}$ 与 $j$ 无关，我们需要求的是 $x_{j}$ 所有可能的取值。

最后一封邮件属于哪一类的概率参数表示如下：

P (Y = k | X) = \prod j = 1 n i P ( x j = a v | y ) P ( y = k ) P ( x )

$P(Y=k|X)=\prod_{j=1}^{n_{i}}\frac{P(x_{j}=a_{v}|y)P(y=k)}{P(x)}$
其中

xj=av x j = a v $x_{j}=a_{v}$ 表示邮件第

j j $j$ 个词在词典中的编号。

one-hot表示和编号表示：

两种表示最大的差别在于包含的语义信息，one-hot表示信息不够丰富，只有 $0-1$ ，所以需要高的维度，而编号表示信息相对丰富，维度低。然而on-hot表示是可以直接度量两个样本之间的相似性的（ $0-1$ 表示是否存在，有语义意义的），而编号表示则不能直接度量两个样本之间的相似性（在词典中的编号是无语义的），但是可以把编号表示放回到集合中去度量两个样本的重合度。所以编号表示可以看作是one-hot的一种低维表示。