朴素贝叶斯 sklearn

最新推荐文章于 2023-03-29 22:51:04 发布

jingjishisi

最新推荐文章于 2023-03-29 22:51:04 发布

阅读量424

点赞数

分类专栏：机器学习 python 文章标签：机器学习 python

本文链接：https://blog.csdn.net/jingjishisi/article/details/79444304

版权

python 同时被 2 个专栏收录

7 篇文章 0 订阅

订阅专栏

机器学习

3 篇文章 0 订阅

订阅专栏

基本原理
sklearn实现
参考文献

基本原理

朴素贝叶斯方法是基于样本的所有特征相互独立这一假设的，这使得模型的建立过程变得简单，但也牺牲了一定的分类准确性。

问题描述

给定一组训练样本集 $T=\{(x_1,y_1),(x_2,y_2),\cdots,(x_N,y_N)\}$ ，其中 $x_i$ 是样本点的特征向量，每个 $x_i$ 是一个 $n$ 维的向量，即 $x_i=[x_i^{(1)},x_i^{(2)},\cdots,x_i^{(n)}]$ ，特征向量的第 $(j)$ 个特征 $x_i^{(j)}$ 有 $S_j$ 个可能的取值，分别为 $\{a_{j1},a_{j1},\cdots,a_{jS_j}\}$ ； $y_i$ 是样本点的类别， $y_i\in\{c_1,c_2,\cdots,c_K\}$ 。

问题分析

若我们能够得知特征向量和类别的联合概率模型 $P(X,Y)$ ，就能够通过在特征 $X$ 给定的条件下概率 $P(X,Y)$ 最大的类别 $Y$ 将未知对象分类，因此对于给定了特征 $X$ 的未知对象，我们只需要知道使得 $P(Y|X)$ 最大的类别 $c_k$ ，并将其作为该对象的类别，这就是朴素贝叶斯算法的基本方法。
由贝叶斯定理我们知道， $P(Y|X)=\frac{P(XY)}{P(X)}$ ，而 $P(XY)=P(X|Y)P(Y)$ ，因此 $P(Y|X)=\frac{P(X|Y)P(Y)}{P(X)}$ ，我们要求使得 $P(Y|X)=\frac{P(X|Y)P(Y)}{P(X)}$ 最大的 $c_k$ ，由于在特征给定时， ${P(X)}$ 是一定的，因此我们要求的实际上是使得 $P(X|Y)P(Y)$ 最大的 $c_k$ 。假设对于特征向量为 $X=[x^{(1)},x^{(2)},\cdots,x^{(n)}]$ 的对象，学习其类别的概率模型为 $y=\underset{c_k}{max}\ P(X|Y=c_k)P(Y=c_k)=P(X^{(1)}=x^{(1)},\cdots,X^{(n)}=x^{(n)}|Y=c_k)P(Y=c_k)$ ，本文开始已经提到过，朴素贝叶斯算法假设样本的所有特征是相互独立的，因此，上式可以写为：

y = m a x c k P (X | Y = c k) P (Y = c k) = m a x c k P (Y = c k) \prod j = 1 n P (X (j) = x (j) | Y = c k)

$y=\underset{c_k}{max}\ P(X|Y=c_k)P(Y=c_k)=\underset{c_k}{max}\ P(Y=c_k)\prod_{j=1}^nP(X^{(j)}=x^{(j)}|Y=c_k)$
在给定了训练数据集

T T $T$ 的情况下，上面式子中的

P (Y = c_{k})

$P(Y=c_k)$ 和

P(X(j)=x(j)|Y=ck) P ( X ( j ) = x ( j ) | Y = c k ) $P(X^{(j)}=x^{(j)}|Y=c_k)$ 可以通过训练数据集来估计。

P(Y=ck) P ( Y = c k ) $P(Y=c_k)$ 和

P(X(j)=x(j)|Y=ck) P ( X ( j ) = x ( j ) | Y = c k ) $P(X^{(j)}=x^{(j)}|Y=c_k)$ 的估计方法分别如下：

P (Y = c k) = \sum N i = 1 I ( y i = c k ) N P (X (j) = a j l | Y = c k) = \sum N i = 1 I ( x ( j ) i = a j l , y i = c k ) \sum N i = 1 I ( y i = c k )

$P(Y=c_k)=\frac{\sum_{i=1}^NI(y_i=c_k)}{N}\\P(X^{(j)}=a_{jl}|Y=c_k)=\frac{\sum_{i=1}^NI(x_i^{(j)}=a_{jl},y_i=c_k)}{\sum_{i=1}^NI(y_i=c_k)}$
其中

k=1,⋯,K;j=1,⋯,n;l=1,⋯,Sj k = 1 , ⋯ , K ; j = 1 , ⋯ , n ; l = 1 , ⋯ , S j $k=1,\cdots,K;j=1,\cdots,n;l=1,\cdots,S_j$ 。函数

I I $I$ 为指示函数，举个例子来说明函数

I

$I$ ，

∑Ni=1I(yi=ck) ∑ i = 1 N I ( y i = c k ) $\sum_{i=1}^NI(y_i=c_k)$ 的函数值为训练样本集

T T $T$ 的

N

$N$ 个样本点中类别为

ck c k $c_k$ 的样本点数量。

P(X(j)=ajl|Y=ck) P ( X ( j ) = a j l | Y = c k ) $P(X^{(j)}=a_{jl}|Y=c_k)$ 是类别为

ck c k $c_k$ 的条件下，第

j j $j$ 个特征取值为

a_{j l}

$a_{jl}$ 的概率估计值。

算法步骤

下面是朴素贝叶斯算法的具体步骤。

输入：训练样本集 $T=\{(x_1,y_1),(x_2,y_2),\cdots,(x_N,y_N)\}$ ，待分类对象 $x$
输出： $x$ 的类别 $y$
step1 计算先验概率和条件概率：
$P (Y = c_{k}) = \frac{\sum_{i = 1}^{N} I (y_{i} = c_{k})}{N} P (X^{(j)} = a_{j l} | Y = c_{k}) = \frac{\sum_{i = 1}^{N} I (x_{i}^{(j)} = a_{j l}, y_{i} = c_{k})}{\sum_{i = 1}^{N} I (y_{i} = c_{k})}$ $P(Y=c_k)=\frac{\sum_{i=1}^NI(y_i=c_k)}{N}\\P(X^{(j)}=a_{jl}|Y=c_k)=\frac{\sum_{i=1}^NI(x_i^{(j)}=a_{jl},y_i=c_k)}{\sum_{i=1}^NI(y_i=c_k)}$
其中 $k=1,\cdots,K;j=1,\cdots,n;l=1,\cdots,S_j$ 。
step2 对于对象 $x=[a_{1l_1},\cdots,a_{nl_n}]$ ，计算
$P (Y = c k) \prod j = 1 n P (X (j) = a j l j | Y = c k) k = 1, \dots, K$ $P(Y=c_k)\prod_{j=1}^nP(X^{(j)}=a_{jl_j}|Y=c_k)\qquad k=1,\cdots,K$
step3 对象 $x$ 的类别为：
$y = \underset{c_{k}}{m a x} P (Y = c_{k}) \prod_{j = 1}^{n} P (X^{(j)} = a_{j l_{j}} | Y = c_{k})$ $y=\underset{c_k}{max}\ P(Y=c_k)\prod_{j=1}^nP(X^{(j)}=a_{jl_j}|Y=c_k)$

平滑因子

训练样本点数量有限，因此在上述算法中可能会出现估计的概率值为0的情况，这使我们无法判断未知对象的类别，这种情况下，我们可以在朴素贝叶斯算法中引入一个平滑因子 $\lambda(\lambda>0)$ ，引入平滑因子后，先验概率和条件概率的估计形式如下：

P λ (Y = c k) = \sum N i = 1 I ( y i = c k ) + λ N + K λ P λ (X (j) = a j l | Y = c k) = \sum N i = 1 I ( x ( j ) i = a j l , y i = c k ) + λ \sum N i = 1 I ( y i = c k ) + S j λ

$P_\lambda(Y=c_k)=\frac{\sum_{i=1}^NI(y_i=c_k)+\lambda}{N+K\lambda}\\P_\lambda(X^{(j)}=a_{jl}|Y=c_k)=\frac{\sum_{i=1}^NI(x_i^{(j)}=a_{jl},y_i=c_k)+\lambda}{\sum_{i=1}^NI(y_i=c_k)+S_j\lambda}$
可以通过计算验证对任意的

k=1,⋯,K、j=1,⋯,n和l=1,⋯,Sj k = 1 , ⋯ , K 、 j = 1 , ⋯ , n 和 l = 1 , ⋯ , S j $k=1,\cdots,K、j=1,\cdots,n和l=1,\cdots,S_j$ ，有

P λ (Y = c k) > 0 P λ (X (j) = a j l | Y = c k) > 0 \sum k = 1 K P λ (Y = c k) = 1 \sum l = 1 S j P λ (X (j) = a j l | Y = c k) = 1

$P_\lambda(Y=c_k)>0\\P_\lambda(X^{(j)}=a_{jl}|Y=c_k)>0\\\sum_{k=1}^KP_\lambda(Y=c_k)=1\\\sum_{l=1}^{S_j}P_\lambda(X^{(j)}=a_{jl}|Y=c_k)=1$
事实上，

⎧ ⎩ ⎨ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ \sum K k = 1 P λ (Y = c k) = \sum K k = 1 \sum N i = 1 I ( y i = c k ) + λ N + K λ \sum K k = 1 P λ (Y = c k) = \sum K k = 1 \sum N i = 1 I ( y i = c k ) + \sum K k = 1 λ N + K λ \sum K k = 1 P λ (Y = c k) = N + K λ N + K λ = 1 ⎧ ⎩ ⎨ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ \sum S j l = 1 P λ (X (j) = a j l | Y = c k) = \sum S j l = 1 \sum N i = 1 I ( x ( j ) i = a j l , y i = c k ) + λ \sum N i = 1 I ( y i = c k ) + S j λ \sum S j l = 1 P λ (X (j) = a j l | Y = c k) = \sum S j l = 1 \sum N i = 1 I ( x ( j ) i = a j l , y i = c k ) + \sum S j l = 1 λ \sum N i = 1 I ( y i = c k ) + S j λ \sum S j l = 1 P λ (X (j) = a j l | Y = c k) = \sum N i = 1 I ( y i = c k ) + S j λ \sum N i = 1 I ( y i = c k ) + S j λ = 1

$\begin{cases}\sum_{k=1}^KP_\lambda(Y=c_k)=\sum_{k=1}^K\frac{\sum_{i=1}^NI(y_i=c_k)+\lambda}{N+K\lambda}\\[2ex]\sum_{k=1}^KP_\lambda(Y=c_k)=\frac{\sum_{k=1}^K\sum_{i=1}^NI(y_i=c_k)+\sum_{k=1}^K\lambda}{N+K\lambda}\\[2ex]\sum_{k=1}^KP_\lambda(Y=c_k)=\frac{N+K\lambda}{N+K\lambda}=1\end{cases}\\[2ex]\begin{cases}\sum_{l=1}^{S_j}P_\lambda(X^{(j)}=a_{jl}|Y=c_k)=\sum_{l=1}^{S_j}\frac{\sum_{i=1}^NI(x_i^{(j)}=a_{jl},y_i=c_k)+\lambda}{\sum_{i=1}^NI(y_i=c_k)+S_j\lambda}\\[2ex]\sum_{l=1}^{S_j}P_\lambda(X^{(j)}=a_{jl}|Y=c_k)=\frac{\sum_{l=1}^{S_j}\sum_{i=1}^NI(x_i^{(j)}=a_{jl},y_i=c_k)+\sum_{l=1}^{S_j}\lambda}{\sum_{i=1}^NI(y_i=c_k)+S_j\lambda}\\[2ex]\sum_{l=1}^{S_j}P_\lambda(X^{(j)}=a_{jl}|Y=c_k)=\frac{\sum_{i=1}^NI(y_i=c_k)+S_j\lambda}{\sum_{i=1}^NI(y_i=c_k)+S_j\lambda}=1\end{cases}$

下面给出加入平滑因子的朴素贝叶斯算法。

输入：训练样本集 $T=\{(x_1,y_1),(x_2,y_2),\cdots,(x_N,y_N)\}$ ，待分类对象 $x$
输出： $x$ 的类别 $y$
step1 计算先验概率和条件概率：
$P_{λ} (Y = c_{k}) = \frac{\sum_{i = 1}^{N} I (y_{i} = c_{k}) + λ}{N + K λ} P_{λ} (X^{(j)} = a_{j l} | Y = c_{k}) = \frac{\sum_{i = 1}^{N} I (x_{i}^{(j)} = a_{j l}, y_{i} = c_{k}) + λ}{\sum_{i = 1}^{N} I (y_{i} = c_{k}) + S_{j} λ}$ $P_\lambda(Y=c_k)=\frac{\sum_{i=1}^NI(y_i=c_k)+\lambda}{N+K\lambda}\\P_\lambda(X^{(j)}=a_{jl}|Y=c_k)=\frac{\sum_{i=1}^NI(x_i^{(j)}=a_{jl},y_i=c_k)+\lambda}{\sum_{i=1}^NI(y_i=c_k)+S_j\lambda}$
其中 $k=1,\cdots,K;j=1,\cdots,n;l=1,\cdots,S_j$ 。
step2 对于对象 $x=[a_{1l_1},\cdots,a_{nl_n}]$ ，计算
$P λ (Y = c k) \prod j = 1 n P λ (X (j) = a j l j | Y = c k) k = 1, \dots, K$ $P_\lambda(Y=c_k)\prod_{j=1}^nP_\lambda(X^{(j)}=a_{jl_j}|Y=c_k)\qquad k=1,\cdots,K$
step3 对象 $x$ 的类别为：
$y = \underset{c_{k}}{m a x} P_{λ} (Y = c_{k}) \prod_{j = 1}^{n} P_{λ} (X^{(j)} = a_{j l_{j}} | Y = c_{k})$ $y=\underset{c_k}{max}\ P_\lambda(Y=c_k)\prod_{j=1}^nP_\lambda(X^{(j)}=a_{jl_j}|Y=c_k)$

sklearn实现

import numpy as np
from sklearn.naive_bayes import MultinomialNB

X = np.random.randint(5, size=(6, 100))
y = np.array([1, 2, 3, 4, 5, 6])
clf = MultinomialNB()
clf.fit(X, y)
test = X[2:3].copy()
test[0,-1] = np.random.randint(5)

print (test)
#[[1 1 4 0 0 4 4 1 0 4 0 3 3 3 0 2 1 2 3 3 0 2 1 3 4 0 3 1 4 0 0 0 4 0 4 4
#  0 0 3 4 0 4 3 2 4 2 1 3 2 3 2 0 4 1 4 2 2 0 1 0 0 4 0 2 0 1 2 4 4 0 4 2
#  0 1 3 1 2 2 2 0 2 3 1 3 1 0 0 4 2 1 4 3 2 0 4 4 0 1 3 2]]
print (X[2:3])
#[[1 1 4 0 0 4 4 1 0 4 0 3 3 3 0 2 1 2 3 3 0 2 1 3 4 0 3 1 4 0 0 0 4 0 4 4
#  0 0 3 4 0 4 3 2 4 2 1 3 2 3 2 0 4 1 4 2 2 0 1 0 0 4 0 2 0 1 2 4 4 0 4 2
#  0 1 3 1 2 2 2 0 2 3 1 3 1 0 0 4 2 1 4 3 2 0 4 4 0 1 3 3]]
print (clf.predict(test))
#[3]

参考文献

李航《统计学习方法》
sklearn官方教程：http://scikit-learn.org/stable/

jingjishisi

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
朴素贝叶斯 sklearn

基本原理问题描述问题分析算法步骤平滑因子sklearn实现参考文献基本原理朴素贝叶斯方法是基于样本的所有特征相互独立这一假设的，这使得模型的建立过程变得简单，但也牺牲了一定的分类准确性。问题描述给定一组训练样本集T={(x1,y1),(x2,y2),⋯,(xN,yN)}T={(x1,y1),(x2,y2),⋯,(xN,yN)}T=\{(x_1...
复制链接

扫一扫