朴素贝叶斯分类器

朴素贝叶斯采取了属性条件独立的假设,即我们所说的特征,相互之间是独立的。

朴素贝叶斯的目标函数:E_{x}[\sum_{i=1}^{k}\lambda _{i,j}P(c_{i}|x)]

若每个样本的风险都最小化,那么整体的风险也将最小化,即在每个样本上选择能使\sum_{i=1}^{k}\lambda _{i,j}P(c_{i}|x)最小的类别标记 h^{*}(x)=arg \min_{c_{i}}\sum_{i=1}^{k}\lambda _{i,j}p\left ( c_{i} |x\right ),误判损失\lambda _{i,j}=0 \ \if \ \ i=j             \lambda _{i,j}=1 \ \if \ \ i\neq j

此时条件风险为: 1-P(c_{i}|x),故最小化分类错误率的贝叶斯最优分类器为h^{*}(x)=arg \max_{c_{i}\in \gamma }P(c_{i}|x)

判别式模型:给定\mathbf{x},可通过直接建模P(c|\mathbf{x})来预测c

生成模型:先对联合概率分布P(\mathbf{x},c)建模,然后由此获得P(c|\mathbf{x})

对贝叶斯定理P(c|\mathbf{x})可写为:P(c|\mathbf{x})=\frac{P(c)P(\mathbf{x}|c)}{P(\mathbf{x})}

贝叶斯学派认为参数是未观察到的随机变量,其本身也有分布,因此可以假设参数服从先验分布,然后基于观察到的数据来计算参数的后验分布,这便是采样估计参数的方法。

D_{c}表示训练集D中第c类样本组成的集合,假设这些样本是独立同分布的,则参数\mathbf{\theta _{c}}对数据集D_{c}的似然是P(D_{c}|\mathbf{\theta }_{c})=\prod_{\mathbf{x}\epsilon D_{c}}P(\mathbf{x}|\mathbf{\theta }_{c})

P(c|\mathbf{x})=\frac{P(c)P(\mathbf{x}|c)}{P(\mathbf{x})}=\frac{\prod_{i=1}^{n}P(\mathbf{x}|\mathbf{\theta }_{c})}{p(\mathbf{x})}

P(\mathbf{x})=\sum_{i=1}^{k}P(c_{i})\prod_{j=1}^{n}P(x^{(j)}|c_{i})

由于P(\mathbf{x})对所有类别来说均相同,因此,故判别准则为arg \max_{c_{i}}P(c_{i})\prod_{j=1}^{n}P(\mathbf{x}^{(j)}|c_{i})

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值