朴素贝叶斯分类

朴素贝叶斯分类,是众多贝叶斯分类算法里最为简单、最为常见的算法之一。其本质属于生成式模型。

其解决的分类问题,数学定义为:

已知类别集合C=\left \{ y_1,...,y_n \right \}、特征集合I=\left \{ x_1,...,x_n \right \},寻找分类器f(x)s.t.\forall x_i\in I,有且仅有一个y_j\in C满足y_j\supseteq f(x_i)

对于\forall x_i\in I,y_j\in C,朴素贝叶斯算法的核心在于求取P(y_j|x_i)。由贝叶斯公式得:

P(y_j|x_i)=\frac{P(x_i|y_j)P(y_j)}{P(x_i)}

(其中,P(y_j)为先验概率,表示在训练前预先估计特征y_j的初始概率,一般由样本中y_j出现的频率近似或历史经验得到,本身独立于样本;P(y_j|x_i)为后验概率,反映了得到样本x_iy_j成立的置信度,一般是模型需要求取的。)

求出所有的后验概率后,朴素贝叶斯算法对其比较,选出后验概率最大的,将样本归为其对应的类别。

如何训练分类器?

考虑到朴素贝叶斯算法假设类别间互相独立,设c\subset C,x\subset X,且c=\left \{ y_p,...,y_{p+m} \right \},p=1,...,nx=\left \{ x_l,...,x_{l+m} \right \},l=1,...,n,则将原式重写为:

P(c|x)=\frac{P(c)P(x|c)}{P(x)}=\frac{P(c)}{P(x)}\prod_{i=1}^{m}P(x_i|c)

为了最大化后验概率,只需要保证分子最大(P(x)视作常数,忽略)即可。即最大化{P(c)}\prod_{i=1}^{m}P(x_i|c)

对于P(c),它是基于训练集得到的类先验概率,设D_c训练集D中第c类样本组合的集合,则P(c)=\frac{\left | D_c \right |}{D}

对于P(x_i|c),分两种情况:

离散的,令D_{c,x_i}表示D_c中在第 i 个属性上取值为x_i的样 本组成的集合,则P(x_i|c)=\frac{\left | D_{c,x_i} \right |}{\left |D_c \right |}

连续的,考虑使用概率密度函数。设P(x_i|c)\sim N(\mu_{c,i} ,\sigma _{c,i}^2),则P(x_i|c)=\frac{1}{\sqrt{2\pi }\sigma _{c,i}}e^{-\frac{(x_i-\mu _{c,i})^2}{2\sigma _{c,i}^2} }

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值