贝叶斯

最新推荐文章于 2023-04-23 22:11:56 发布

George_Dong

最新推荐文章于 2023-04-23 22:11:56 发布

阅读量353

点赞数

分类专栏： MachineLearning

本文链接：https://blog.csdn.net/George_Dong/article/details/85231195

版权

MachineLearning 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

贝叶斯决策论

贝叶斯决策论是概率框架下实施决策的基本方法。对分类任务来说，在所有相关概率都已知的理想情形下，贝叶斯决策论考虑如何基于这些概率和误判损失来选择最优的类别标记。
假设有 $N$ 种可能的类别标记，即 $\mathcal{Y}=\{c_1, c_2,\dots,c_N\},\lambda_{ij}$ 是将一个真实标记为 $c_j$ 的样本误分类为 $c_i$ 所产生的损失。基于后验概率 $P(c_i|x)$ 可获得将样本 $x$ 分类为 $c_i$ 所产生的期望损失（expected loss），即在样本 $x$ 上的“条件风险”（conditional risk）。 $R(c_i|x)=\sum_{j=1}^N\lambda_{ij}P(c_j|x)$ 我们的任务是寻找一个判定准则 $h:\chi\mapsto\mathcal{Y}$ 以最小化总体风险 $R(h)=\Bbb{E}_x \lbrack R(h(x)|x) \rbrack$ 显然，对于每一个样本 $x$ ,若 $h$ 能最小化条件风险 $R (h (x) ∣ x)$ ，则总体风险 $R (h)$ 也将被最小化。这就产生了贝叶斯判定准则（Bayes Decision Rule）：为最小化总体风险，只需要在每个样本上选择那个能使风险 $R (c ∣ x)$ 最小的类别标记，即 $h^*(x)=\mathop {argmin} \limits_{c \in \mathcal{Y}}R(c|x)$ 此时， $h^*(x)$ 称为贝叶斯最优分类器（Bayes optimal classifier）,与之对应的总体风险 $R(h^*)$ 称为贝叶斯风险（Bayes risk）。 $1-R(h^*)$ 反映了分类器所能达到的最好性能，即通过机器学习所能产生的模型精度的理论上限。

极大似然估计

估计类条件概率的一种常用策略是先假定其具有某种确定的概率分布形式，再基于训练样本对概率分布的参数进行估计。具体地，记关于类别 $c$ 的类条件概率为 $P (x ∣ c)$ ，假设 $P (x ∣ c)$ 具有确定的形式并且被参数向量 $\theta_c$ 唯一确定，则我们的任务就是利用训练集 $D$ 估计参数 $\theta_c$ 。为明确起见，我们将 $P (x ∣ c)$ 记为 $P(x|\theta_c)$ 。
事实上，概率模型的训练过程就是参数估计（parameter estimation）过程。对于参数估计，统计学界的两个学派分别提供了不同的解决方案：频率主义学派（Frequentist）认为参数虽然未知，但却是客观存在的固定值，因此可通过优化似然函数等准则来确定参数值；贝叶斯学派（Bayesian）则认为参数是未观察到的随机变量，其本身也可有分布。本节介绍源自频率主义学派的极大似然估计（Maximum Likelihood Estimate，简称MLE），这是根据数据采样来估计概率分布参数的经典方法。
令 $D_c$ 表示训练集 $D$ 中第 $c$ 类样本组成的集合，假设这些样本是独立同分布的，则参数 $\theta_c$ 对于数据集 $D_c$ 的似然是 $P(D_c|\theta_c=\prod \limits_{x \in D_c}P(x|\theta_c)$ 对 $\theta_c$ 进行极大似然估计，就是去寻找到能最大化似然 $P(D_c|\theta_c)$ 的参数值 $\hat{\theta_c}$ 。直观上看，极大似然估计是试图在 $\theta_c$ 所有可能的取值中，找到一个能使数据出现的“可能性”最大的值。
上式中的连乘操作易造成下溢，通常使用对数似然（log-likelihood） $LL(\theta_c)=logP(D_c|\theta_c)=\sum \limits_{x \in D_c}logP(x|\theta_c)$ 此时参数 $\theta_c$ 的极大似然估计 $\hat{\theta_c}$ 为 $\hat{\theta_c}=\mathop {argmax}\limits_{\theta_c}LL(\theta_c)$ 例如，在连续属性情形下，假设概率密度函数 $p(x|c)\backsim\mathcal{N(\mu_c,\delta^2_c)}$ ,则参数 $\mu_c$ 和 $\delta^2_c$ 的极大似然估计为 $\hat{\mu_c}=\frac{1}{|D_c|}\sum \limits_{x \in D_c}x, \\ \hat{\delta}^2_c=\frac{1}{|D_c|}\sum \limits_{x \in D_c}(x-\hat{\mu_c})(x-\hat{\mu_c})^T$ 也就是说，通过极大似然法得到的正态分布均值就是样本均值，方差就是 $(x-\hat{\mu_c})(x-\hat{\mu_c})^T$ 的均值，这显然是一个符合直觉的结果。在离散属性情形下，也可通过类似的方式估计类条件概率。
需要注意的是，这种方法虽然能使类条件概率估计变得相对简单，但估计结果的准确性严重依赖于所假设的概率分布形式是否符合潜在的真实数据分布。在现实应用中，欲做出能较好地接近潜在真实分布假设，往往需要在一定程度上利用关于应用任务本身的经验知识，否则若仅凭“猜测”来假设概率分布形式，很可能产生误导性的结果。