笔记-朴素贝叶斯

最新推荐文章于 2024-02-05 09:48:49 发布

K_Albert

最新推荐文章于 2024-02-05 09:48:49 发布

阅读量332

点赞数

分类专栏：统计学习方法文章标签：朴素贝叶斯分类统计学学习方法极大似然估计贝叶斯估计

本文链接：https://blog.csdn.net/K_Albert/article/details/78268017

版权

统计学习方法专栏收录该内容

4 篇文章 1 订阅

订阅专栏

1.朴素贝叶斯

朴素贝叶斯法式基于贝叶斯定理以及特征条件独立分布的假设的一种分类方法。
条件独立性分布：在类确定的条件下，用于分类的特征都是条件独立的。即满足

P (X = x | Y = c k) = P (X (1) = x (1), \dots, X (n) = x (n) | Y = c k) = \prod i = 1 n P (X (i) = x (i) | Y = c k)

$P(X=x|Y=c_k)=P(X^{(1)}=x^{(1)},\cdots ,X^{(n)}=x^{(n)}|Y=c_k)=\prod_{i=1}^nP(X^{(i)}=x^{(i)}|Y=c_k)$
学习朴素贝叶斯的过程涉及到一部分概率论的知识，准备另写一篇博客记录。

2.朴素贝叶斯模型

根据给定数据集，学习联合概率分布 $P(X,Y)$ ,对于给定输入 $x$ ,求出使其后验概率最大的 $y$ ，就是该输入所属的类。
1.通过训练数据集学习联合概率分布 $P(X,Y)$ ,具体地，学习以下先验概率

P (Y = c k)

$P(Y=c_k)$
以及条件概率

P (X = x | Y = c k) = P (X (1) = x (1), \dots, X (n) = x (n) | Y = c k)

$P(X=x|Y=c_k)=P(X^{(1)}=x^{(1)},\cdots,X^{(n)}=x^{(n)}|Y=c_k)$
2.后验概率由贝叶斯定理求得

P (Y = c k | X = x) = P ( X , Y ) P ( X ) = P ( X = x | Y = c k ) P ( Y = c k ) \sum K k = 1 P ( X = x | Y = c k ) P ( Y = c k )

$P(Y=c_k|X=x)=\frac{P(X,Y)}{P(X)}=\frac{P(X=x|Y=c_k)P(Y=c_k)}{\sum_{k=1}^K P(X=x|Y=c_k)P(Y=c_k)}$
根据条件独立假设，上式可变形为如下形式,即朴素贝叶斯分类器可用如下形式表示

P (Y = c k | X = x) = P ( Y = c k ) \prod n i = 1 P ( X ( i ) = x ( i ) | Y = c k ) \sum K k = 1 P ( Y = c k ) \prod n i = 1 P ( X ( i ) = x ( i ) | Y = c k )

$P(Y=c_k|X=x)=\frac{P(Y=c_k)\prod_{i=1}^nP(X^{(i)}=x^{(i)}|Y=c_k)}{\sum_{k=1}^K P(Y=c_k)\prod_{i=1}^nP(X^{(i)}=x^{(i)}|Y=c_k)}$
选择后验概率最大的输出，

a r g max c k P (Y = c k | X = x)

$arg\max_{c_k}P(Y=c_k|X=x)$
因为对于同一输入

x $x$ ，其分母都是相同的，所以求后验概率最大又变为求

a r g max c k P (Y = c k) \prod i = 1 n P (X (i) = x (i) | Y = c k)

$arg\max_{c_k}P(Y=c_k)\prod_{i=1}^nP(X^{(i)}=x^{(i)}|Y=c_k)$

3.朴素贝叶斯学习策略

上文中提到了后验概率最大的概念，之前接触到的学习策略通常是期望风险最小，这里存在一个后验概率最大和期望风险最小的对应。
设损失函数为0-1损失函数

L (Y, f (X)) = {0, 1, f (X) = Y f (X) \neq Y

$L(Y,f(X))= \begin{cases} 0,& f(X)=Y\\ 1,& f(X)\neq Y \end{cases}$
其中

f(X) $f(X)$ 为分类决策函数。由该损失函数得期望风险函数

R e x p (X) = E (L (Y, f (X)))

$R_{exp}(X)=E(L(Y,f(X)))$
期望是

X $X$ 确定的条件下的条件期望，

R e x p (X) = \sum k = 1 K [L (c k . f (X))] P (c k | X = x)

$R_{exp}(X)=\sum_{k=1}^K[L(c_k.f(X))]P(c_k|X=x)$
使期望风险函数最小，

f (x) = a r g min y \in Y \sum k = 1 K L (c k, y) P (c k | X = x) = a r g min y \in Y \sum k = 1 K P (y \neq c k | X = x) = a r g min y \in Y (1 - P (y = c k | X = x)) = a r g max y \in Y P (y = c k | X = x)

$\begin{align} f(x)&= arg\min_{y\in Y}\sum_{k=1}^K L(c_k,y)P(c_k|X=x)\\ &=arg\min_{y\in Y}\sum_{k=1}^K P(y\neq c_k|X=x)\\ &=arg\min_{y\in Y}(1-P(y=c_k|X=x))\\ &=arg\max_{y\in Y}P(y=c_k|X=x) \end{align}$
就等价于后验概率最大。

4.朴素贝叶斯学习方法

首先来看如何得出第二节中提到的先验概率和条件概率(用于求取后验概率)，有两种方式，一种是极大似然估计，一种是贝叶斯估计。

4.1极大似然估计

样本总数为 $N$ ,先验概率的极大似然估计：

P (Y = c k) = \sum N i = 1 I ( y i = c k ) N, k = 1, 2, \dots, K

$P(Y=c_k)=\frac{\sum_{i=1}^NI(y_i=c_k)}{N},k=1,2,\cdots,K$
第

j $j$ 个特征

x(j) $x^{(j)}$ 可能取值的集合为

{aj1,aj2,⋯,ajSj} $\{a_{j1},a_{j2},\cdots,a_{jS_j}\}$ ,条件概率的极大似然估计：

P (X (j) = a j l | Y = c k) = \sum N i = 1 I ( x ( j ) i = a j l , y i = c k ) \sum N i = 1 I ( y i = c k )

$P(X^{(j)}=a_{jl}|Y=c_k)=\frac{\sum_{i=1}^NI(x_i^{(j)}=a_{jl},y_i=c_k)}{\sum_{i=1}^NI(y_i=c_k)}$

j = 1, 2, \dots, n; k = 1, 2, \dots, K; l = 1, 2, \dots, S j

$j=1,2,\cdots,n;k=1,2,\cdots,K;l=1,2,\cdots,S_j$

x(j)i $x_i^{(j)}$ 表示第

i $i$ 个样本的第

j $j$ 个特征，

I $I$ 为指示函数，条件成立为1，否则为0.

这两个式子是如何得到的呢？

首先来看什么是似然函数：

设随机变量 $X$ ,如果 $X_1,X_2,\cdots,X_n$ 相互独立且同分布，即 $P(X_i=x_i)=P(x_i;\theta_k)$ ,则

P (X 1 = x 1, X 2 = x 2, \dots, X n = x n) = \prod i = 1 n P (x i; θ k)

$P(X_1=x_1,X_2=x_2,\cdots,X_n=x_n)=\prod_{i=1}^nP(x_i;\theta_k)$
当

Xi $X_i$ 给定时，等式右侧是

θk $\theta_k$ 的函数，当

θk $\theta_k$ 给定时，等式右侧是

Xi $X_i$ 的函数。假设

Xi $X_i$ 已知，记

L (θ k; x i) = \prod i = 1 n P (x i; θ k)

$L(\theta_k;x_i)=\prod_{i=1}^nP(x_i;\theta_k)$ 为似然函数.

极大似然估计的求法

对似然函数求导，如果是多维变量就求偏导。在多数情况下，直接求导难于求解，通常借用对数函数。由于对数函数是单调递增的函数，所以 $logL(\cdot)$ 与 $L(\cdot)$ 有相同的最值点（？？）。若 $logL(\cdot)$ 的导数存在，即可求该似然函数对各参数的导数，令导数为0求解最值，根据二阶导数判断其为最大值还是最小值。

条件概率的极大似然估计证明：

设 $P(Y=c_k)=\theta_k$ ，且 $\sum_{k=1}^K\theta_k=1$ ，得似然函数

L (θ k; y 1, y 2, \dots, y N) = \prod i = 1 N P (y i; θ k) = \prod k = 1 K θ \sum N i = 1 I (y i = c k) k

$L(\theta_k;y_1,y_2,\cdots,y_N)=\prod_{i=1}^NP(y_i;\theta_k)=\prod_{k=1}^K\theta_k^{\sum_{i=1}^NI(y_i=c_k)}$
(在N个样本中，概率为

θk $\theta_k$ 的有

∑Ni=1I(yi=ck) $\sum_{i=1}^NI(y_i=c_k)$ 个)
其对数似然函数：

l n L (θ k; y 1, y 2, \dots, y N) = \sum k = 0 K l n θ k \sum i = 1 N I (y i = c k)

$lnL(\theta_k;y_1,y_2,\cdots,y_N)=\sum_{k=0}^Kln\theta_k\sum_{i=1}^NI(y_i=c_k)$
注意，有约束

∑Kk=1θk=1 $\sum_{k=1}^K\theta_k=1$ ,根据拉格朗日乘子法，将约束条件代入得

l n L (θ k; y 1, y 2, \dots, y N) = \sum k = 0 K l n θ k \sum i = 1 N I (y i = c k) + λ (\sum k = 1 K θ k - 1)

$lnL(\theta_k;y_1,y_2,\cdots,y_N)=\sum_{k=0}^Kln\theta_k\sum_{i=1}^NI(y_i=c_k)+\lambda(\sum_{k=1}^K\theta_k-1)$
对

θk $\theta_k$ 求偏导,并令偏导等于零求最值

\sum N i = 1 I ( y i = c k ) - λ = θ k

$\frac{\sum_{i=1}^NI(y_i=c_k)}{-\lambda}=\theta_k$
对

k=1,2,⋯,K $k=1,2,\cdots,K$ 分别求导并相加，得

\sum i = 1 K θ k = N - λ = 1

$\sum_{i=1}^K\theta_k=\frac{N}{-\lambda}=1$
联立两式得到

θ k = \sum N i = 1 I ( y i = c k ) N

$\theta_k=\frac{\sum_{i=1}^NI(y_i=c_k)}{N}$

条件概率的极大似然估计证明

设 $P(X^{(j)}=ajl|Y=c_k)=\theta_{kl},P(X^{(j)}=ajl,Y=c_k)=\theta_{kl}\theta_k$ , $\sum_{l=1}^{S_j}\theta_{kl}=1$ 得似然函数

L (θ k l, θ k; (x (j) i, y i)) = \prod i = 1 N P (x (j) i, y i; θ k l, θ k) = \prod l = 1 S j \prod k = 1 K (θ k l θ k) \sum N i = 1 I (x (j) i = a j l, y i = c k)

$L(\theta_{kl},\theta_k;(x_i^{(j)},y_i))=\prod_{i=1}^NP(x_i^{(j)},y_i;\theta_{kl},\theta_k)=\prod _{l=1}^{S_j}\prod _{k=1}^K(\theta_{kl}\theta_k)^{\sum_{i=1}^NI(x_i^{(j)}=a_{jl},y_i=c_k)}$
对数似然函数

l n L (θ k l, θ k; (x (j) i, y i)) = \sum i = 1 N I (x (j) i = a j l, y i = c k) \sum l = 1 S j \sum k = 1 K (l n θ k l + l n θ k)

$lnL(\theta_{kl},\theta_k;(x_i^{(j)},y_i))=\sum_{i=1}^N I(x_i^{(j)}=a_{jl},y_i=c_k)\sum_{l=1}^{S_j}\sum_{k=1}^K(ln\theta_{kl}+ln\theta_k)$
利用拉格朗日乘子法，加入约束

∑Sjl=1θkl=1 $\sum_{l=1}^{S_j}\theta_{kl}=1$ ,

l n L (θ k l, θ k; (x (j) i, y i)) = \sum i = 1 N I (x (j) i = a j l, y i = c k) \sum l = 1 S j \sum k = 1 K (l n θ k l + l n θ k) + λ (\sum l = 1 S j θ k l - 1)

$lnL(\theta_{kl},\theta_k;(x_i^{(j)},y_i))=\sum_{i=1}^N I(x_i^{(j)}=a_{jl},y_i=c_k)\sum_{l=1}^{S_j}\sum_{k=1}^K(ln\theta_{kl}+ln\theta_k)+\lambda(\sum_{l=1}^{S_j}\theta_{kl}-1)$
对

θkl $\theta_{kl}$ 求偏导,令偏导等于零求最值

\sum N i = 1 I ( x ( j ) i = a j l , y i = c k ) - λ = θ k l

$\frac{\sum_{i=1}^N I(x_i^{(j)}=a_{jl},y_i=c_k)}{-\lambda}=\theta_{kl}$
对

l=1,2,⋯,Sj $l=1,2,\cdots,S_j$ 依次求取偏导，求和相加

\sum l = 1 S j θ k l = 1 = \sum N i = 1 I ( y i = c k ) - λ

$\sum_{l=1}^{S_j}\theta_{kl}=1=\frac{\sum_{i=1}^N I(y_i=c_k)}{-\lambda}$
联立两式，得

\sum N i = 1 I ( x ( j ) i = a j l , y i = c k ) \sum N i = 1 I ( y i = c k ) = θ k l

$\frac{\sum_{i=1}^NI(x_i^{(j)}=a_{jl},y_i=c_k)}{\sum_{i=1}^NI(y_i=c_k)}=\theta_{kl}$

4.2贝叶斯估计

为什么要用贝叶斯估计：
极大似然估计可能会出现先验概率和条件概率等于0的情况，此时无法求取后验概率（这句话不一定对）使分类出现偏差0。此时可以采取贝叶斯估计，贝叶斯估计的思想就是在随机变量各个取值的频数上加上一个正数 $\lambda>0$ 。
先验概率的贝叶斯估计：

P (Y = c k) = \sum N i = 1 I ( y i = c k ) + λ N + K λ

$P(Y=c_k)=\frac{\sum_{i=1}^N I(y_i=c_k)+\lambda}{N+K\lambda}$
此时随机变量Y，Y的可能取值有K种，所以是

Kλ $K\lambda$
条件概率的贝叶斯估计：

P (X (j) = a j l | Y = c k) = \sum N i = 1 I ( x ( j ) i = a j l , y i = c k ) + λ \sum N i = 1 I ( y i = c k ) + S j λ

$P(X^{(j)}=a_{jl}|Y=c_k)=\frac{\sum_{i=1}^NI(x_i^{(j)}=a_{jl},y_i=c_k)+\lambda}{\sum_{i=1}^NI(y_i=c_k)+S_j\lambda}$
此时随机变量为特征X，X可能取值有

Sj $S_j$ 种，所以是

Sjλ $S_j\lambda$

当 $\lambda=0$ 时就是极大似然估计。当 $\lambda=1$ 时，称为拉普拉斯平滑。

以先验概率 $P(Y=c_k)$ 为例，对于 $k=1,2,\cdots,K$ ,有

P (Y = c k) > 0

$P(Y=c_k)>0$

\sum k = 1 K P (Y = c k) = 1

$\sum_{k=1}^KP(Y=c_k)=1$
所以先验概率的贝叶斯估计式确实是一种概率分布，同理可证条件概率的贝叶斯估计式。

4.3算法

1.求先验概率及条件概率，可用极大似然估计或贝叶斯估计
2.求取后验概率
3.取后验概率最大的输出为分类

K_Albert

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
笔记-朴素贝叶斯

1.朴素贝叶斯朴素贝叶斯法式基于贝叶斯定理以及特征条件独立分布的假设的一种分类方法。学习朴素贝叶斯的过程涉及到一部分概率论的知识，准备另写一篇博客记录。2.朴素贝叶斯学习方法先进行参数估计（极大似然估计、贝叶斯估计）出先验概率，然后利用先验概率求出后验概率。
复制链接

扫一扫