朴素贝叶斯分类

朴素贝叶斯分类器

朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。
先验概率:当事情还未发生时,这件事情发生的概率。
后验概率:当事情发生后,这件事情由某个原因引起的概率。
先验概率难以获得,需要基于有限的训练样本尽可能的估计出后验概率。
基础知识:
全概率: P ( B ) = ∑ i = 1 n P ( A i ) P ( B ∣ A i ) P(B)=\sum_{i=1}^{n}P(A_{i})P(B|A_{i}) P(B)=i=1nP(Ai)P(BAi)
条件概率: P ( A ∣ B ) = P ( A ⋂ B ) P ( B ) P(A|B)=\frac{P(A\bigcap B)}{P(B)} P(AB)=P(B)P(AB)
贝叶斯公式: p ( B ∣ A i ) = P ( B ) P ( A i ∣ B ) P ( B ) p(B|A_{i})=\frac{P(B)P(A_{i}|B)}{P(B)} p(BAi)=P(B)P(B)P(AiB)
极大似然估计:

分类器:
基于有限的训练样本集尽可能的估计出后验概率 P ( c i ∣ x ) P(c_{i}|\mathbf{x}) P(cix)。(后验概率就是求样本 x \mathbf{x} x的类别为 c i c_{i} ci的概率)
P ( c i ∣ x ) = P ( c i ) P ( x ∣ c i ) P ( x ) P(c_{i}|\mathbf{x})=\frac{P(c_{i})P(\mathbf{x}|c_{i})}{P(\mathbf{x})} P(cix)=P(x)P(ci)P(xci)
P ( c i ) P(c_{i}) P(ci)是类“先验”概率表示训练集样本空间中各类别的概率分布, P ( x ∣ c i ) P(\mathbf{x}|c_{i}) P(xci)是样本 x \mathbf{x} x属于类别 c i c_{i} ci的条件概率, P ( x ) P(\mathbf{x}) P(x)类似于一种用来归一化的“分母”。
朴素贝叶斯分类器的一个重要假设:对于样本中的所有属性相互独立,即每个属性对于结果都同样重要。这在一定情况下是错误的,比如在句子分类中,你、我、他这种词是不重要,而情感词讨厌、高兴、快乐这些词比较重要看,但朴素贝叶斯对这些词在计算中都看作同等重要。
基于属性独立的假设,得到朴素贝叶斯分类器的表达式: P ( c i ∣ x ) = P ( c i ) P ( x ∣ c i ) P ( x ) = P ( c i ) P ( x ) ∏ j = 1 d P ( x j ∣ c i ) P(c_{i}|\mathbf{x})=\frac{P(c_{i})P(\mathbf{x}|c_{i})}{P(\mathbf{x})}=\frac{P(c_{i})}{P(\mathbf{x})}\prod_{j=1}^{d}P(x_{j}|c_{i}) P(cix)=P(x)P(ci)P(xci)=P(x)P(ci)j=1dP(xjci)
d d d为属性数目, x \mathbf{x} x是输入样本, x j x_{j} xj表示输入样本在第 j j j个属性上的取值, c i c_{i} ci表示类别。
P ( c i ) = ∣ D c i ∣ ∣ D ∣ P(c_{i})=\frac{|D_{c_{i}}|}{|D|} P(ci)=DDci
∣ D ∣ |D| D表示训练集的大小, ∣ D c i ∣ |D_{c_{i}}| Dci表示属于类别 D i D_{i} Di的样本集的大小。 P ( x j ∣ c i ) = ∣ D c i , x j ∣ ∣ D c i ∣ P(x_{j}|c_{i})=\frac{|D_{c_{i},x_{j}}|}{|D_{c_{i}}|} P(xjci)=DciDci,xj
∣ D c i , x j ∣ |D_{c_{i},x_{j}}| Dci,xj表示样本集 D c i D_{c_{i}} Dci中第 j j j个属性上取值为 x j x_{j} xj的样本集大小。
上述公式是在属性为离散值时,当属性值为连续值时,呈高斯分布: P ( x j ∣ c i ) = 1 2 π σ c i , j e x p ( − ( x j − μ c i , j ) 2 2 σ c i , j 2 ) P(x_{j}|c_{i})=\frac{1}{\sqrt{2\pi}\sigma _{c_{i},j}}exp(-\frac{(x_{j}-\mu _{c_{i},j})^{2}}{2\sigma _{c_{i},j}^{2}}) P(xjci)=2π σci,j1exp(2σci,j2(xjμci,j)2)
σ c i , j \sigma _{c_{i},j} σci,j表示第 c i c_{i} ci类样本在第 j j j个属性取值的标准差, u c i , j u _{c_{i},j} uci,j表示在第 c i c_{i} ci类样本在第 j j j个属性取值的均值。
求出样本在每个类别 c c c下的概率,概率最大的类别就是所属类别。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值