朴素贝叶斯分类器

qq_906638174

于 2020-09-08 14:52:43 发布

阅读量261

点赞数

本文链接：https://blog.csdn.net/qq_41067092/article/details/108463918

版权

朴素贝叶斯采取了属性条件独立的假设，即我们所说的特征，相互之间是独立的。

朴素贝叶斯的目标函数： $E_{x}[\sum_{i=1}^{k}\lambda _{i,j}P(c_{i}|x)]$

若每个样本的风险都最小化，那么整体的风险也将最小化，即在每个样本上选择能使 $\sum_{i=1}^{k}\lambda _{i,j}P(c_{i}|x)$ 最小的类别标记 $h^{*}(x)=arg \min_{c_{i}}\sum_{i=1}^{k}\lambda _{i,j}p\left ( c_{i} |x\right )$ ，误判损失 $\lambda _{i,j}=0 \ \if \ \ i=j$ $\lambda _{i,j}=1 \ \if \ \ i\neq j$

此时条件风险为： $1-P(c_{i}|x)$ ，故最小化分类错误率的贝叶斯最优分类器为 $h^{*}(x)=arg \max_{c_{i}\in \gamma }P(c_{i}|x)$

判别式模型：给定 $\mathbf{x}$ ，可通过直接建模 $P(c|\mathbf{x})$ 来预测

生成模型：先对联合概率分布 $P(\mathbf{x},c)$ 建模，然后由此获得 $P(c|\mathbf{x})$

对贝叶斯定理 $P(c|\mathbf{x})$ 可写为： $P(c|\mathbf{x})=\frac{P(c)P(\mathbf{x}|c)}{P(\mathbf{x})}$

贝叶斯学派认为参数是未观察到的随机变量，其本身也有分布，因此可以假设参数服从先验分布，然后基于观察到的数据来计算参数的后验分布，这便是采样估计参数的方法。

令 $D_{c}$ 表示训练集中第类样本组成的集合，假设这些样本是独立同分布的，则参数 $\mathbf{\theta _{c}}$ 对数据集 $D_{c}$ 的似然是 $P(D_{c}|\mathbf{\theta }_{c})=\prod_{\mathbf{x}\epsilon D_{c}}P(\mathbf{x}|\mathbf{\theta }_{c})$