朴素贝叶斯算法(Naive Bayes)

一、判别式学习算法和生成式学习算法

对于一个分类问题来说(这里以二分类问题为例),不管是感知器算法还是逻辑回归算法,都是在解空间中寻找一条直线从而把两种类别的样例分开,对于新的样例只要判断在直线的哪一侧即可,这种直接对问题求解的方法可以成为判别学习方法。生成学习算法则是对两个类别分别进行建模,用新的样例去匹配两个模型,匹配度较高的作为新样例的类别。

二、贝叶斯公式

朴素贝叶斯算法的核心公式自然是贝叶斯公式:
P ( B ∣ A ) = P ( A ∣ B ) P ( B ) P ( A ) P(B|A) = \frac{P(A|B)P(B)}{P(A)} P(BA)=P(A)P(AB)P(B)

在机器学习分类算法中,用以下形式可能会更清晰明了:
P ( 类别 ∣ 特征 ) = P ( 特征 ∣ 类别 ) P ( 类别 ) P ( 特征 ) P(类别|特征) = \frac{P(特征|类别)P(类别)}{P(特征)} P(类别特征)=P(特征)P(特征类别)P(类别)

三、朴素贝叶斯算法的基本思想

(1) 如果要解决的是一个分类问题,那么我们的任务是根据样本的特征来判断样本属于哪个类别。首先我们要对训练集中的样本进行统计,并计算各个类别的概率(先验概率):

P ( 类别 y ) P(类别y) P(类别y)

(2) 接着计算各个类别下各个特征取到某值的概率(条件概率):

P ( 第 i 个特征的第 k 个可取值 ∣ 类别 y ) P(第i个特征的第k个可取值|类别y) P(i个特征的第k个可取值类别y)

(3) 朴素贝叶斯算法假设各个特征相互独立,这样的话,对于测试集上的一个新样本来说,有以下等式成立:

P ( 特征 1 , 特征 2 , … , 特征 n ∣ 类别 y ) = P ( 特征 1 ∣ 类别 y ) P ( 特征 2 ∣ 类别 y ) , ⋯   , P ( 特征 n ∣ 类别 y ) P(特征1, 特征2,\dots, 特征n|类别y) = P(特征1|类别y)P(特征2|类别y),\cdots,P(特征n|类别y) P(特征1,特征2,,特征n类别y)=P(特征1∣类别y)P(特征2∣类别y),,P(特征n类别y)

(4) 给定测试集上的一个样本(也就是告知样本的各个特征的取值),我们可以计算出:

P ( 特征 ∣ 类别 y ) P ( 类别 y ) P(特征|类别y)P(类别y) P(特征类别y)P(类别y)

(5) 想要计算出后验概率 P(类别y|特征),我们还需要计算出 P(特征),但是任一样本的 P(特征) 在各个类别下的值是完全相同的,又因为我们的目的是找出样本属于哪个类别的概率最大,为了简化计算,分母部分的 P(特征) 可以去掉。

四、拉普拉斯平滑

P ( 特征 1 ∣ 类别 y ) P ( 特征 2 ∣ 类别 y ) P ⋯ ( 特征 n ∣ 类别 y ) P ( 类别 y ) P(特征1|类别y)P(特征2|类别y)P \cdots (特征n|类别y)P(类别y) P(特征1∣类别y)P(特征2∣类别y)P(特征n类别y)P(类别y) 中有任何一部分的值为 0,则整个式子的值为 0。在对条件概率 P ( 特征 i 的第 k 个可取值 ∣ 类别 y ) P(特征i的第k个可取值|类别y) P(特征i的第k个可取值类别y) 进行建模时,发现它们很有可能为 0,为了避免出现这种情况,可以引入拉普拉斯平滑,在建模过程中,假定每个特征的每个取值至少出现 1 次,这样:

P ( 特征 i 的第 k 个取值 ∣ 类别 y ) = 类别为 y 的样例中特征 i 的第 k 个取值出现的次数 + 1 类别为 y 的样例数 + 特征 i 的可取值数 P(特征i的第k个取值|类别y) = \frac{类别为y的样例中特征i的第k个取值出现的次数 + 1}{类别为y的样例数+特征i的可取值数} P(特征i的第k个取值类别y)=类别为y的样例数+特征i的可取值数类别为y的样例中特征i的第k个取值出现的次数+1

五、参考

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值