机器学习之路(二)之朴素贝叶斯

本文深入探讨了朴素贝叶斯分类器的基础,包括统计学习方法、处理重复词的方法(多项式、伯努利和混合模型)、平滑技术(Laplace法则、Good-Turing估计和Witten-Bell算法),以及朴素贝叶斯法的局限性和实际应用中的代码实现。重点关注了条件独立假设在分类中的作用及其对模型性能的影响。
摘要由CSDN通过智能技术生成

   目录

   1. 基本概念(统计学习方法):

   2.对于重复的词

   3.平滑技术   

   4.朴素贝叶斯法的局限性

   5.代码实现


   1.   基本概念(统计学习方法):

    朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。对于给定的训练数据集,首先基于特征条件独立假设学习输入和输出的联合概率分布。然后对于给定的输入实例x,利用贝叶斯定理求出后验概率最大的输出y,属于生成模型。

    分类时,对于给定的输入x,通过学习到的模型计算后验概率分布,将后验概率最大的类作为x的类别输出。后验概率计算根据贝叶斯定理进行:

    P(Y=c_{k}|X=x) = \frac{ P(X=x|Y=c_{k}) P(Y=c_{k}) }{\sum_{k} P(X=x|Y=c_{k}) P(Y=c_{k})}

    在此基础上,假设用于分类的特征在类确定的条件下都是条件独立的,虽然会损失一定的准确率,但是会使朴素贝叶斯法变得简单,条件独立性假设为:

    P(X=x|Y=c_{k}) = P(X^{(1)}=x^{(1)},...,X^{(n)}=x^{(n)}|Y=c_{k}) =\prod_{j=1}^{n}P(X^{j}=x^{j}|Y=c_{k})){\color{Red} }

   于是,可得朴素贝叶斯法的基本公式为:

       P(Y=c_{k}|X=x) = \frac{ P(Y=c_{k})\prod _{j}P(X^{j}=x^{j}|Y=c_{k}) }{\sum _{k}P(Y=c_{k})\prod _{j}P(X^{j}=x^{j}|Y=c_{k})}

    在分类时,基本公式的分母对于所以的类集合都是相同的,所以在比较概率时只需要比较分子。

    朴素的原因(个人观点)
1.思想十分简单,对于给定的待分类实例,求解各个类别出现的概率,通过举手表决法,概率最大的类别即为该实例的类别
2.在计算贝叶斯定理时,假设所有特征在数据集中的作用是同样重要并且相互独立的。

   2.对于重复的词

    在使用朴素贝叶斯法的时候,可能会遇重复的词语,有三种模型可以进行处理,分别是多项式模型、伯努利模型以及混合模型。

    假设对红苹果、青苹果、绿苹果进行分词,分词以后是:红、苹果、青、苹果、绿、苹果

    多项式模型,对于出现的重复词语记多次

    

    伯努利模型,对于出现

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

皮的开心

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值