sklearn朴素贝叶斯分类器_机器学习06——朴素贝叶斯

  • 一、概率公式:
    • 条件概率公式:

v2-98595bd608223cdfeefda35a87c03ec4_b.jpg
      • 事件A发生的条件下,事件B发生的概率=事件A和事件B同时发生的概率/事件A发生的概率
      • P(AB)=P(A)*P(B|A)
        • 事件A和事件B同时发生的概率=事件A发生的概率*事件A发生的条件下,事件B发生的概率
    • 全概率公式:

v2-5cafa700cc75cca0a9d90969df97d93c_b.jpg

v2-f2b4893e99a6053dcbf764e8d1ad7683_b.jpg
      • 如果事件A1 A2 A3构成了必然事件Ω,且3个A事件相互独立,并且A1 A2 A3都是有可能发生的。那么对于该必然事件Ω中的事件B如图:
        • 事件B发生的概率 =求和: 事件A发生的概率*事件A发生的条件下事件B发生的概率(如图:椭圆B等于它被事件A划开的3部分的和)
      • 全概率公式可以理解为拼接部分求整体,而贝叶斯公式理解为拆分整体求某一部分。如下:
    • 贝叶斯公式:(逆全概率公式)

v2-a7f863aedcf64400c4e831beeef5aa34_b.jpg
    • 以A1为例,P(A1|B)表示事件B发生条件下A1发生的概率,那么需要知道事件B发生的概率作为分母(因为事件B不发生,他们就不会有同时发生),事件A1和B同时发生的概率作为分子。
      • P(B)带入全概率公式
      • P(A1B)带入条件概率公式的变形
    • 得到贝叶斯公式
  • 二、朴素贝叶斯
    • 定义:
      • 在机器学习中,朴素贝叶斯分类器是一系列以假设特征之间强独立(朴素)下运用贝叶斯定理为基 础的简单概率分类器。
      • 朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法 。最为广泛的两种分类模型是决策树模型(Decision Tree Model)和朴素贝叶斯模型(Naive Bayesian Model,NBM)
      • 高度可扩展的,求解过程只需花费线性时间
    • 应用:朴素贝叶斯在文本分类(text classification)的领域的应用多,无论是sklearn还是 Spark Mllib中,都只定制化地实现了在文本分类领域的算法。
      • 案例理解:根据肤色(黑,黄),头发(卷,直)预测人是属于亚洲还是非洲地区。
      • 朴素:假设特征间是独立的(忽略肤色和发型的联系)。从而变成了“低配版的贝叶斯模型”,称 为“朴素贝叶斯”。
        • 优点是可以减少需要估计的参数的个数;缺点是会牺牲一定的分类准确率。 2*2*2
        • 贝叶斯模型的参数数量是指数型的;而朴素贝叶斯的参数数量是线性的。2*(2+2)
        • 朴素贝叶斯计算公式:

v2-c1a7ba1aec8d01cc391ee3fe79f1bffb_b.png
      • 拉普拉斯平滑:
        • 由于朴素贝叶斯公式中有一个缺陷:当某一个参数的概率值为0时,整个计算结果会为0,从而影响到预测结果。

v2-586b06445dadaa51561e0364919c73bc_b.jpg
        • 以上图为例:在分子上加一个 λ,分母用标签数乘以 λ,这是为了保证‘亚洲’概率+‘非洲’概率的计算结果是1
        • 在随机变量各个取值的频数上赋予一个正数,当值 ,称为拉普拉斯平滑。
  • 三、特征工程—词频统计
    • (一)TF (Term Frequency 词频)
      • TF 词频,表示一个单词在文本中出现的频率,一般认为出现频率越高,该单词越重要。
      • TF一般会归一化处理用以防止它偏向更长的文件:TF= 词频 / 文本总的单词数
    • (二)TF- IDF (Inverse Document Frequency 逆向词频)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值