HMM study：贝叶斯（1）：贝叶斯决策

最新推荐文章于 2022-05-16 15:57:33 发布

VeraWin

最新推荐文章于 2022-05-16 15:57:33 发布

阅读量336

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/TiffanyXYf/article/details/102516070

版权

机器学习专栏收录该内容

13 篇文章 1 订阅

订阅专栏

贝叶斯决策（1）

贝叶斯决策论考虑基于已知概率和误判损失来选择最优的标记类别。 本博在梳理贝叶斯决策的同时主要关注对于某些概念的理解。
本博主要参考西瓜书第七章。

样本误判产生的风险（损失） $\lambda_{ij}$

不同类别的误判概率可能不同，贝叶斯决策中用 $\lambda_{ij}$ 来表示 $c_j$ 类误判为 $c_i$ 类产生的损失。初学者可能对损失存在疑问。
我认为：损失是自己根据实际情况自己定义下的，可能没有明确的单位，但是是一个能够衡量事件对后果的影响的“抽象量”。例如：阿尔兹海默症患者的诊断中，将非患者诊断为患者的损失远远小于将患者诊断为非患者的损失，因为阿尔兹海默症是无法治疗而只能控制的疾病，若患者无法被正确诊断，会耽误就诊时机（这就是所谓损失的一种），而非患者就算误诊“损失也没有这么大”。

期望损失（风险）

期望损失表示将某样本 $\textbf{x}$ 判断为某一类 $c_i$ 产生的期望损失，通过后验概率计算：
$R(c_i|\textbf{x})=\sum_{j=1}^{N}\lambda_{ij}P(c_j|\textbf{x})$
物理意义： $\textbf{x}$ 可能属于N个类中的任意一类， $\textbf{x}$ 被分为 $c_j$ 的概率为 $P(c_j|\textbf{x})$ ，若将 $\textbf{x}$ 随意分类为 $c_i$ （例如i=1），则期望损失就是所有类别分为 $c_i$ 类的损失的平均（也就是 $\lambda_{1j},j=1:N$ 求平均（自变量为“损失”，根据发生的概率直接求平均即可））。
注意： 自变量为误判风险（损失）

最小化总体风险

总体风险 $R(h)=E_x[R(h(\textbf{x})|\textbf{x})]$ ，最小化 $R (h)$ ，也即寻找一个合适的判定准则 $h$ 使 $R (h)$ 最小。

贝叶斯决策准则、贝叶斯最优分类器、贝叶斯风险

对于每一个样本若是 $h$ 能够最小化条件风险 $R(h(\textbf{x})|\textbf{x})$ ，则总体风险也就最小了；
这就是贝叶斯判定准则：为了最小化总体风险，只需要在每个样本上选择那个能够使条件风险 $R(c)|\textbf{x})$ 最小化的类别标记。（这样做的基础为：总体风险是根据总体样本分类结果计算得到的（单个样本分类结果对应一个分类风险，总体风险就是单个风险的和），而 $h$ 代表了一种分类方式比如，选择某个特征最大的那个类别作为当前样本的类别。）
也即： $h^*(\textbf{x})=argmin_{c\in\gamma}R(c|\textbf{x})$
$h^*$ 就成为贝叶斯最优分类器，与之对应的总体风险 $R(h^*)$ 被称为贝叶斯风险。
$1-R(h^*)$ 反映了分类器能够达到的最好性能，也就是机器学习能够产生的模型精度的理论上限

最小化分类错误率

若目标是最小化分类错误率，则
$\lambda_{ij}=0,if(i==j);\lambda_{ij}=1,else$
此时条件风险 $R(c|\textbf{x})=1-p(c|\textbf{x})$ ，那么贝叶斯最优分类器：
$h^*(\textbf{x})=argmax_{c\in\gamma}P(c|\textbf{x})$
然后分类策略问题就转化为最大后验概率的估计问题。

贝叶斯最优估计

由上述的最小化分类误差，可以得知贝叶斯决策论选择了能够使分类误差最小的分类决策，保证预测概率最小化，所以被称为“最优”。

极大似然估计

贝叶斯定理： $P(c|\textbf{x})=P(c)*P(\textbf{x}|c)/P(\textbf{x})$
$P(c|\textbf{x})$ 为后验概率； $P (c)$ 是类“先验概率”； $P(\textbf{x}|c)$ 是样本 $\textbf{x}$ 相对于标记类 $c$ 的“类条件概率”，也就是“似然”； $P(\textbf{x})$ 与类无关，相当于是一个“归一化因子”。所以估计 $P(c|\textbf{x})$ 的问题就转化为了基于训练数据来估计先验概率 $P (c)$ 和类条件概率（似然） $P(\textbf{x}|c)$ 。

类条件概率（似然） $P(\textbf{x}|c)$ 的估计策略通常为：假定其有某种固定的概率分布形式，再基于训练样本对概率分布的参数进行估计。
**条件概率的估计的物理意义可以理解为：在样本集合中，C类中的样本的特征的分布是什么样的。**比如假定固定的概率分布形式为高斯分布，则我们只需要对高斯分布的均值与方差进行估计就可以了（基本为样本估计总体，通过样本计算均值与方差）。
类条件概率（似然） $P(\textbf{x}|c)$ 的分布形式估计完成后，将样本对应的值代入分布（C代表类别通常有多个如 $c_1,c_2...$ ），我们选择得到的类条件概率大的对应的类作为当前样本的类别。

最大后验概率估计

贝叶斯定理： $P(c|\textbf{x})=P(c)*P(\textbf{x}|c)/P(\textbf{x})$ ，似然概率大不能代表后验概率大，还需要“先验概率” $P (c)$ 大，通常训练分类器时，先验概率是可以直接通过样本估计出来的。所以并不麻烦。

朴素贝叶斯

类条件概率（似然） $P(\textbf{x}|c)$ 中 $\textbf{x}$ 代表样本的特征，实质上是一种联合分布。通过样本估计联合分布是很麻烦的，朴素贝叶斯假设样本特征相互独立， $P(\textbf{x}|c)=\Pi_{i=1:m}{P(x_i|c)}$ ，其中 $m$ 为特征个数。
朴素贝叶斯分类的思想十分简单：通过样本估计每个特征的类条件概率（似然） $P(x_i|c)$ ，然后连乘得到 $P(\textbf{x}|c)$ ；得到新的样本时，根据 $P(\textbf{x}|c)$ 估计该样本在每一个类别下的似然，选择似然最大的那个类作为该样本的判断类。

总结

梳理了一下对于贝叶斯分类的理解。后续会接着记录相关理解和问题思考。

VeraWin

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
HMM study：贝叶斯（1）：贝叶斯决策

贝叶斯决策（1）**贝叶斯决策论考虑基于已知概率和误判损失来选择最优的标记类别。**本博在梳理贝叶斯决策的同时主要关注对于某些概念的理解。本博主要参考西瓜书第七章。样本误判产生的风险（损失） λij\lambda_{ij}λij不同类别的误判概率可能不同，贝叶斯决策中用 λij\lambda_{ij}λij 来表示 cjc_jcj 类误判为 cic_ici 类产生的损失。初学者可...
复制链接

扫一扫