朴素贝叶斯分类器

最新推荐文章于 2021-01-12 06:23:59 发布

一叶_障目

最新推荐文章于 2021-01-12 06:23:59 发布

阅读量665

点赞数

分类专栏：朴素贝叶斯分类器文章标签：机器学习

本文链接：https://blog.csdn.net/Haiyang_Duan/article/details/78919910

版权

分类器同时被 2 个专栏收录

4 篇文章 0 订阅

订阅专栏

朴素贝叶斯

3 篇文章 0 订阅

订阅专栏

贝叶斯决策论

在所有相关概率都已知的情况下，贝叶斯决策论考虑如何基于这些概率和误判损失来选择最优的类别标记。
假设有N种可能的类别标记，即 $Y=\{c_1,c_2,...,c_N\},\lambda_{ij}$ 是将一个真实标记为 $c_j$ 的样本误分类为 $c_i$ 所产生的损失。基于后验概率 $P(c_i|x)$ 可获得样本 $x$ 分类为 $c_i$ 所产生的期望损失，即在样本 $x$ 上的“条件风险”（在决策论中将期望损失称为风险）：

R (c i | x) = \sum j = 1 N λ i j P (c j | x)

$R(c_i|x)=\sum_{j=1}^N\lambda_{ij}P(c_j|x)$
我们的任务是寻找一个判定准则

h:χ→Y以最小化总体风险 $h:\chi\rightarrow Y以最小化总体风险$

R (h) = E x [R (h x) | x]

$R(h)=E_x[R(h{x})|x]$
显然，对每个样本

x $x$ ，若h能最小化条件风险

R(h(x)|x) $R(h(x)|x)$ ，则总体风险

R(h) $R(h)$ 也将被最小化。这就产生了贝叶斯判定准则：为最小化总体风险，只需在每个样本上选择那个使条件风险

R(c|x) $R(c|x)$ 最小的类别标记：

h * (x) = a r g m i n c \in Y R (c | x)

$h^*(x)={arg\,min}_{c\in Y}R(c|x)$
此时，

h∗ $h^*$ 称为贝叶斯最优分类器，与之对应的总体风险

R(h∗) $R(h^*)$ 称之为贝叶斯风险，

1−R(h∗) $1-R(h^*)$ 反映了分类器所能达到的最好性能，即通过机器学习所能产生的模型精度的理论上限。
若木表是最小化分类错误率，则

λij $\lambda_{ij}$ 可写为：

λ i j = {01 i f i = j o t h e r w i s e

$\lambda_{ij}=\begin{cases}0&if\,\,\,i=j\\1&otherwise\end{cases}$
此时条件风险：

R (c | x) = 1 - P (c | x)

$R(c|x)=1-P(c|x)$
于是，最小化分类错误率的贝叶斯最优分类器为：

h * (x) = arg max c \in Y P (c | x)

$h^*(x)=\arg\max_{c\in Y}P(c|x)$
对每个样本

x $x$ ，选择能使后验概率

P(c|x) $P(c|x)$ 最大的类别标记。

想要使用贝叶斯判定准则来最小化决策风险，首先要获得后验概率 $P(c|x)$ ，这通常难以直接获得。从这个角度出发，机器学习所要实现的是基于有限的训练样本集尽可能准确地估计出后验概率 $P(c|x)$ 。事实上，很多机器学习方法无须准确估计后验概率就能准确进行分类。

大体来说，主要有两种策略：1.给定x，通过直接建模 $P(c|x)$ 来预测 $c$ ，这属于“判别式模型”；也可先对联合概率分布 $P(c,x)$ 建模，然后再获得 $P(c|x)$ ，这属于“生成式模型”。对于后者，必然考虑：

P (c | x) = P ( c ) P ( x | c ) P ( x )

$P(c|x)=\frac{P(c)P(x|c)}{P(x)}$
类先验概率

P(c) $P(c)$ 对所有类别标记均相同，可通过各类样本出现的频率进行估计。

类条件概率 $P(x|c)$ 亦称之为”似然”，由于涉及x所有属性的联合分布，直接根据样本出现的频率进行估计将会遇到严重的困难。假设样本的 $d$ 个属性都是二值的，则样本空间将有 $2^d$ 中可能性，很多取值在训练集中可能根本就没有出现，直接使用频率估计 $P(x|c)$ 显然不可行，因为“未被观测到”与“出现概率为零”是不同的。

极大似然估计

概念理解：一般来说，时间 $A$ 发生的概率与某一未知的参数 $\theta$ 有关， $\theta$ 取值不同，则事件 $A$ 发生的概率 $P(A|\theta)$ 也不相同，当我们在一次试验中事件 $A$ 发生了，则认为此时的 $\theta$ 值应是其一切可能取值中使得 $P(A|\theta)$ 达到最大的那一个值，极大似然估计就是要找出这样的值作为参数 $\theta$ 的估计值，从而使得所选取的样本在数据集中出现的可能性最大。

最大似然估计是常用的参数估计方法之一，即已知某个随机样本满足某种概率分布，但是具体的参数未知，参数估计就是通过若干次实验通过其结果推测参数的大概值。

估计类条件概率的一种常用策略是：先假定类条件概率具有某种确定的概率分布形式，再基于训练数据集对概率分布的参数进行估计。具体地，即关于类别c的类条件概率为 $P(x|c)$ ，假设 $P(x|c)$ 具有确实的形式并且被参数向量 $\theta_c$ 唯一确定，则我们的任务就是利用训练集 $D$ 估计参数 $\theta_c$ 。将 $P(x|c)$ 记为 $P(x|\theta_c)$ 。