朴素贝叶斯算法(naive Bayes algorithm)

最新推荐文章于 2024-05-23 15:43:21 发布

FeynmanWang

最新推荐文章于 2024-05-23 15:43:21 发布

阅读量701

点赞数

分类专栏：学习笔记

本文链接：https://blog.csdn.net/FeynmanWang/article/details/47044673

版权

学习笔记专栏收录该内容

24 篇文章 1 订阅

订阅专栏

算法：

$\qquad$ 输入：训练数据 $T=\{(x_1,y_1),(x_2,y_2),\ldots,(x_N,y_N)\}$ ，其中 $x_i=(x_i^{(1)},x_i^{(2)},\ldots,x_i^{(n)})^T$ , $x_i^{(j)}$ 是第 $i$ 个样本的第 $j$ 个特征， $x_i^{(j)}\in\{a_{j1},a_{j2},\ldots,a_{js_j}\}$ ， $a_{jl}$ 是第 $j$ 个特征可能取的第 $l$ 个值， $j=1,2,\ldots,n$ ， $l=1,2,\dots,S_j$ ， $y_i\in\{c_1,c_2,\ldots,c_K\}$ ；实例 $x$ ；
$\qquad$ 输出：实例 $x$ 的分类。
$\qquad$ (1) 计算先验概率及条件概率

P (Y = c k) = \sum N i = 1 I ( y i = c k ) N, k = 1, 2, \dots, K

$P(Y=c_k)=\frac {\sum_{i=1}^N I(y_i=c_k)} N,\quad k=1,2,\ldots,K$

P (X (j) = a j l | Y = c k) = \sum N i = 1 I ( x ( j ) i = a j l , y i = c k ) \sum N i = 1 I ( y i = c k )

$P(X^{(j)}=a_{jl}|Y=c_k)=\frac {\sum_{i=1}^N I(x_i^{(j)}=a_{jl},y_i=c_k)} {\sum_{i=1}^N I(y_i=c_k)}$

j = 1, 2, \dots, n; l = 1, 2, \dots, S j; k = 1, 2, \dots, K

$j=1,2,\ldots,n;\quad l=1,2,\ldots ,S_j;\quad k=1,2,\ldots,K$

$\qquad$ (2) 对于给定的实例

x=(x(1),x(2),…,x(n))T $x=(x^{(1)},x^{(2)},\ldots,x^{(n)})^T$ ，计算

P (Y = c k) \prod j = 1 n P (X (j) = x (j) | Y = c k), k = 1, 2, \dots, K

$P(Y=c_k)\prod_{j=1}^n P(X^{(j)}=x^{(j)}|Y=c_k),\quad k=1,2,\ldots,K$

$\qquad$ (3) 确定实例

x $x$ 的类

y = a r g max c k P (Y = c k) \prod j = 1 n P (X (j) = x (j) | Y = c k)

$y=arg\max_{c_k}P(Y=c_k)\prod_{j=1}^n P(X^{(j)}=x^{(j)}|Y=c_k)$

模型：

$P(X,Y)$ ，条件独立性假设

策略：

极大后验概率估计

推理思路：

$\quad$ 通过训练数据集学习 $P(X,Y)$ ，具体地，学习先验概率分布 $P(Y=c_k)$ 和条件概率分布 $P(X=x|Y=c_k)$
朴素 = 条件独立性假设 = 特征在类确定的情况下是条件独立的

P (X = x | Y = c k) = P (X (1) = x (1), \dots, X (n) = x (n) | Y = c k) = \prod j = 1 n P (X (j) = x (j) | Y = c k)

$\begin{align} P(X=x|Y=c_k)&=P(X^{(1)}=x^{(1)},\ldots,X^{(n)}=x^{(n)}|Y=c_k)\\& =\prod_{j=1}^n P(X^{(j)}=x^{(j)}|Y=c_k) \end{align}$
将后验概率

P(Y=ck|X=x) $P(Y=c_k|X=x)$ 最大的类作为

x $x$ 的类输出

P (Y = c k | X = x) = P ( X = x | Y = c k ) P ( Y = c k ) \sum k P ( X = x | Y = c k ) P ( Y = c k ) = P ( Y = c k ) \prod j P ( X ( j ) = x ( j ) | Y = c k ) \sum k P ( Y = c k ) \prod j P ( X ( j ) = x ( j ) | Y = c k )

$\begin{align} P(Y=c_k|X=x)&=\frac {P(X=x|Y=c_k)P(Y=c_k)} {\sum_k P(X=x|Y=c_k)P(Y=c_k)}\\ &=\frac{P(Y=c_k)\prod_j P(X^{(j)}=x^{(j)}|Y=c_k)} {\sum_k P(Y=c_k)\prod_j P(X^{(j)}=x^{(j)}|Y=c_k)} \end{align}$
分母对所有

ck $c_k$ 都是相同的，所以

y = a r g max c k P (Y = c k) \prod j = 1 n P (X (j) = x (j) | Y = c k)

$y=arg\max_{c_k}P(Y=c_k)\prod_{j=1}^n P(X^{(j)}=x^{(j)}|Y=c_k)$

算法缺陷及改进

可能出现估计的概率为0，采用贝叶斯估计代替极大似然估计

P λ (Y = c k) = \sum N i = 1 I ( y i = c k ) + λ N + K λ, k = 1, 2, \dots, K

$P_\color{red}\lambda(Y=c_k)=\frac {\sum_{i=1}^N I(y_i=c_k)+\color{red}\lambda} {N+\color{red}{K\lambda}},\quad k=1,2,\ldots,K$

P λ (X (j) = a j l | Y = c k) = \sum N i = 1 I ( x ( j ) i = a j l , y i = c k ) + λ \sum N i = 1 I ( y i = c k ) + S j λ

$P_\color{red}\lambda(X^{(j)}=a_{jl}|Y=c_k)=\frac {\sum_{i=1}^N I(x_i^{(j)}=a_{jl},y_i=c_k)+\color{red}\lambda} {\sum_{i=1}^N I(y_i=c_k)+\color{red}{S_j\lambda}}$

λ≥0 $\lambda \ge 0$ ，当

λ=0 $\lambda=0$ 即为极大似然估计。常取

λ=1 $\lambda=1$ 此时称为拉普拉斯平滑。

FeynmanWang

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
朴素贝叶斯算法(naive Bayes algorithm)

算法：\qquad 输入：训练数据 T={(x1,y1),(x2,y2),…,(xN,yN)}T=\{(x_1,y_1),(x_2,y_2),\ldots,(x_N,y_N)\}，其中 xi=(x(1)i,x(2)i,…,x(n)i)Tx_i=(x_i^{(1)},x_i^{(2)},\ldots,x_i^{(n)})^T, x(j)ix_i^{(j)} 是第 ii 个样本的第 jj 个特征， x(
复制链接

扫一扫