朴素贝叶斯算法详解

最新推荐文章于 2024-08-14 22:32:50 发布

JeemyJohn

最新推荐文章于 2024-08-14 22:32:50 发布

阅读量4.7k

点赞数 1

分类专栏：机器学习机器学习文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u013709270/article/details/76736147

版权

机器学习同时被 2 个专栏收录

44 篇文章 7 订阅

订阅专栏

41 篇文章 52 订阅

订阅专栏

1. 引言

　　
　　朴素贝叶斯算法（Naive Bayes）是机器学习中常见的基本算法之一，主要用来做分类任务的。它是基于贝叶斯定理与条件独立性假设的分类方法。对于给定的训练数据集，首先基于特征条件独立性假设学习输入/输出的联合概率分布，然后基于此模型，对于给定的输入 $x$ 利用贝叶斯定理求出后验概率最大的输出 $y$ 。
　　
　　基于以上的解释，我们知道：1. 该算法的理论核心是贝叶斯定理；2. 它是基于条件独立性假设这个强假设之下的，这也是该算法为什么称为“朴素”的原因。

本文将从以下几个角度去详细解释朴素贝叶斯算法：

朴素贝叶斯算法的数学原理；
朴素贝叶斯算法的参数估计；
拉普拉斯平滑；

2. 原理

　　介绍完了基本概念之后，我们就应该详细地介绍算法的原理。由于该算法的基本思想是基于朴素贝叶斯定理的，所以本节首先介绍一下朴素贝叶斯算法背后的数学原理。

2.1 贝叶斯定理

　　根据贝叶斯定理，对一个分类问题，给定样本特征 $x$ ，样本属于类别 $y$ 的概率是

P (y | x) = P ( x | y ) * P ( y ) P ( x ) (1)

$P(y | x)=\frac{P(x|y)*P(y)}{P(x)} \qquad\qquad\qquad(1)$

公式中的 $x$ 是特征向量的维度，假设为 d。因此，有：

P (y | x) = P ( x 1 , x 2 , . . . , x d | y ) * P ( y ) P ( x ) (2)

$P(y | x)=\frac{P(x^1,x^2,...,x^d|y)*P(y)}{P(x)} \qquad(2)$

由于条件概率分布有指数及数量的参数，因此，求解该问题是一个NP难问题，实现中很难解决，所以直接求解不可行。因此，朴素贝叶斯法对条件概率分布做了条件独立性的假设，于是有：

P (x 1, x 2, . . ., x d | y = c k) = \prod i = 0 d P (x i | y = c k) (3)

$P(x^1,x^2,...,x^d|y=c_k)=\prod_{i=0}^d P(x^i | y=c_k) \qquad\qquad(3)$

　　
将（3）带入（2）得：

P (y = c k | x) = P ( y = c k ) \prod d i = 0 P ( x i | y = c k ) P ( x ) (4)

$P(y=c_k | x)=\frac{P(y=c_k)\prod_{i=0}^d P(x^i | y=c_k)}{P(x)} \qquad\qquad(4)$

这是朴素贝叶斯法分类的基本公式。因此，朴素贝叶斯分类器可以表示为：

y = f (x) = a r g m a x c k P ( y = c k ) \prod d i = 0 P ( x i | y = c k ) P ( x ) (5)

$y=f(x)=\mathop{argmax}_{c_k} \frac{P(y=c_k)\prod_{i=0}^d P(x^i | y=c_k)}{P(x)} \qquad(5)$

由于所有的P(x)的分布是一样的，所以：

y = f (x) = a r g m a x c k P (y = c k) \prod i = 0 d P (x i | y = c k) (6)

$y=f(x)=\mathop{argmax}_{c_k} {P(y=c_k)\prod_{i=0}^d P(x^i | y=c_k)} \qquad\qquad(6)$

2.2 后验概率最大化的意义

　　由上述的推导可知，朴素贝叶斯分类是将实例分到后验概率最大的类中。这等价于期望风险最小化。这就是朴素贝叶斯法所采用的原理。

3. 参数估计

　　由（6）可知，朴素贝叶斯法的学习过程主要是估计 $P(y=c_k)$ 以及 $P(x^j|y=c^k)$ 。

P (y = c k) = \sum N i = 1 I ( y i = c k ) N, k = 1, 2, . . ., K (7)

$P(y=c_k) = \frac{\sum_{i=1}^N I(y_i=c_k)}{N} , k=1,2,...,K \qquad(7)$

P (X j = x j | y = c k) = \sum N i = 1 I ( X j = x j , y = c k ) \sum N i = 1 I ( y i = c k ), k = 1, 2, . . ., K (8)

$P(X^j=x^j | y=c_k)=\frac{\sum_{i=1}^N I(X^j=x^j,y=c_k)}{\sum_{i=1}^N I(y_i=c_k)} , k=1,2,...,K \qquad(8)$

4. 拉普拉斯平滑

　　到这里好像方法已经介绍完了，实则有一个小问题需要注意，在公式中，如果从样本中算出的概率值为0该怎么办呢？下面介绍一种简单方法，给学习步骤中的两个概率计算公式，分子和分母都分别加上一个常数，就可以避免这个问题。更新过后的公式如下：

P (y = c k) = \sum N i = 1 I ( y i = c k ) + λ N + K λ, k = 1, 2, . . ., K (9)

$P(y=c_k) = \frac{\sum_{i=1}^N I(y_i=c_k)+\lambda}{N+K\lambda} , k=1,2,...,K \qquad(9)$
K是类的个数

P (X j = x j | y = c k) = \sum N i = 1 I ( X j = x j , y = c k ) + λ \sum N i = 1 I ( y i = c k ) + L j λ, k = 1, 2, . . ., K (10)

$P(X^j=x^j | y=c_k)=\frac{\sum_{i=1}^N I(X^j=x^j,y=c_k)+\lambda}{\sum_{i=1}^N I(y_i=c_k)+L_j\lambda} , k=1,2,...,K \qquad(10)$
Lj是第j维特征的最大取值

5. 特征值是连续值时的参数估计

未完待续。。。

对机器学习，人工智能感兴趣的小伙伴可以加我微信：JeemyJohn，我拉你进我的机器学习群（群里很多高手哦！），或者扫描二维码！当然你也可以关注我的公众号，点击链接：燕哥带你学算法公众号团队简介

这里写图片描述

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。