贝叶斯理论框架综述

萌新待开发

已于 2023-06-02 11:02:06 修改

阅读量3.5k

点赞数 2

分类专栏： ᕦ 机器学习 ᕤ 文章标签：机器学习贝叶斯推理概率论

于 2022-08-26 16:02:37 首次发布

本文链接：https://blog.csdn.net/qq_44785318/article/details/126544834

版权

ᕦ 机器学习 ᕤ 专栏收录该内容

67 篇文章 34 订阅

订阅专栏

对高效全局优化(Efficient Global Optimization,EGO)有了更全面的理解，该优化方法与贝叶斯推理有着密切的联系。文章从所应用的数据类型(离散和连续)出发，回顾了贝叶斯方法在离散空间和在连续空间中具有代表性的应用方法。在离散空间中，贝叶斯往往依赖于频率统计和先验条件的假设，文章简要描述了离散条件下贝叶斯推理的应用场景和先置条件。在对数据类型为连续型的背景中，贝叶斯推理方法更依赖于对连续分布的建立，文章侧重的探讨了贝叶斯似然函数是否可计算的两种情况中的推理原理，以及应用背景和区别。这里不讨论B贝叶斯神经网络（Bayesian Neural Networks）

贝叶斯定理(Bayesian Theorem)

贝叶斯定理，又称贝叶斯推理，其与随机变量的条件概率以及边缘概率分布有关，是一种通过计算条件概率来获得目标后验的方法。

$p\left(f \mid D_{1: t}\right)=\frac{p\left(D_{1: t} \mid f\right) p(f)}{p\left(D_{1: t}\right)}$

其中, $f$ 表示未知目标函数; $D_{1: t}=\left\{\left(\boldsymbol{x}_{1}, y_{1}\right),\left(\boldsymbol{x}_{2}, y_{2}\right), \ldots,\left(\boldsymbol{x}_{t}, y_{t}\right)\right\}$ 表示已观测集合, $\boldsymbol{x}_{t}$ 表示决策向量, $y_{t}=f\left(x_{t}\right)+\varepsilon_{t}$ 表示观测值, $\varepsilon_{t}$ 表示观测误差; $p(f)$ 表示 $f$ 的先验概率分布, 即对未知目标函数状态的假设; $p\left(D_{1: t} \mid f\right)$ 表示 $y$ 的似然分布, 由于观测值存在误差, 所以也称为“噪声”; $p\left(D_{1: t}\right)$ 表示边际化 $f$ 的边际似然分布或者“证据”, 该边际似然存在概率密度函数的乘积和积分, 通常难以得到明确的解析式，可使用最小二乘等估计手段确定; $p\left(f \mid D_{1: t}\right)$ 表示 $f$ 的后验概率分布,后验概率分布描述通过已观测数据集对先验进行修正后未知目标函数的置信度. 那么根据 $D_{1: t}$ 的数据类型, 可以分为离散型和连续性。以下根据数据的类型分别介绍各个基于贝叶斯推理的应用方法。

离散空间

朴素贝叶斯

朴素贝叶斯是基于贝叶斯定理的一种分类方法，它假设各属性对结果的影响相互独立，这样就将联合概率密度的计算转化为多个一维概率密度的计算，降低了计算开销。
对于似然函数,通过频率次数进行计算得到，朴素贝叶斯的目标是最大会后验分布，即最大可能的分类:

$P\left(c_{i} \mid a_{1}, a_{2}, a_{3}, a_{4}\right)=\alpha P\left(c_{i}\right) \prod_{j=1}^{N} P\left(a_{j} \mid c_{i}\right)$

$C_{\mathrm{MAP}}=\underset{c_{i} \in C}{\arg \max } P\left(c_{i} \mid a_{1}, a_{2}, a_{3}, a_{4}\right)$

对于文本分类这一任务，现在有大量的神经网络方面的优秀模型可供使用，但这些模型常常需要耗费大量的时间、资源进行训练，而朴素贝叶斯这个模型虽然简单，但是其分类效果已经基本满足工程所需。常用于数据分类、攻击识别、资源分配决策。

贝叶斯网络推理算法

也称信念网络(Belief Network),是基于多元统计分析技术的一种统计推理方法。通过有方向的图形来表达事件之间的概率关系，每个事件之间通过有方向的箭头连接的节点组成。每一个节点表示一个随机变量，而且每个变量之间都是相互独立的，箭头表示变量之间的原因与结果的关系。箭头方向的意义在于一个变量的变化可以引起另一个变量的变化。

$\mathrm{P}(\mathrm{A}, \mathrm{B}, \mathrm{C}, \mathrm{D}, \mathrm{E}) =P(E \mid C) P((D \mid C) P(C \mid A, B) P(A, B) \\ =P(E \mid C) P((D \mid C) P(C \mid A, B) P(A) P(B)$

贝叶斯网络是因果的概率，所有的先验概率都是根据经验统计得到。其中先置条件需要数据的结构化、以及网络的构建。常用于风险分析、行为分析。

连续空间

似然/后验分布可得到

当优化危险化学试剂成分时,错误的试剂成分融合可能发生毁灭性的爆炸;当优化药物配方时,潜在致命的药物配方可能导致临床病人死亡;当优化航天飞机零部件配置时,不科学的零部件尺寸、结构配置可能导致航天飞机的运行不稳定甚至发生严重的航天事故.由于对这些优化目标进行评估时会花费大量的时间、费用乃至危害生命,因此,在优化时通常希望在少量评估代价下得到满意解.

贝叶斯优化两个部分:

(1) 使用概率模型代理原始评估代价高昂的复杂目标函数. 通过可观察点 $D_{1: t}$ ,求得后验分布: $p\left(f \mid D_{1: t}\right)$ .

(2) 利用代理模型的后验信息 $p\left(f \mid D_{1: t}\right)$ 构造选择策略选择样本点,即填充策略或是获取函数.

概率模型:参数模型和非参数模型。参数模型:贝塔-伯努利(Beta-Bernoulli)模型、线性模型(径向基函数); 非参数模型:高斯过程、深度神经网络。

$p\left(\boldsymbol{w} \mid D_{1: t}\right)=\prod_{i=1}^{K} \operatorname{Beta}\left(w_{i} \mid \alpha+n_{i, 1}, \beta+n_{i, 0}\right)$

$p\left(\boldsymbol{w}, \sigma \mid \mu_{0}, \boldsymbol{V}_{0}, \alpha_{0}, \beta_{0}\right)=\left|2 \pi \sigma^{2} V_{0}\right|^{-\frac{1}{2}} \times \frac{\beta_{0}^{\alpha_{0}}}{\Gamma\left(\alpha_{0}\right) \sigma^{2 \alpha_{0}+2}} \times \exp \left(-\frac{\left(\boldsymbol{w}-\mu_{0}\right)^{T} \boldsymbol{V}_{0}^{-1}\left(\boldsymbol{w}-\mu_{0}\right)+2 \beta_{0}}{2 \sigma^{2}}\right)$

$\left.p(\boldsymbol{y} \mid \boldsymbol{f})=\mathcal{N} (\boldsymbol{f}, \sigma^{2} \boldsymbol{I}\right)$

填充策略:probability of improvement、expected improvement、upper confidence bound、Thompson sampling。其中贝叶斯优化中使用了高斯过程和EI则被称为EGO(Efficient Global Optimization)。

贝叶斯优化条件：输入范围域可知,目标函数能被替代模型拟合，观测数据(少)。缺点：强烈依赖于替代模型，即先验和后验分布，如果最终能够产生拟合度很高的高斯过程, 高斯过程模型决定了数据呈高斯分布，确实能够附带描述特定输出的分布，总体仍是输入范围内寻找输入。维数高、数据量大，概率模型的构建就会困难不准确; 同时，候选点的选择上无意义,构建概率模型和求解速度就会变慢。这就导致贝叶斯优化的发展有两个方向:概率模型的增强(高纬度、多任务、冻融)与填充策略的增强(并行化、约束和敏感性、距离敏感)。

应用的热门领域：推荐系统，Google 和 Microsoft 等公司根据订阅者订阅的网站、视频、音乐等方面的内容为订阅者推荐相关的新闻文章；在一定查询预算的前提下，在广告与网页优化设计中，通过点击率等帮助设计和改善产品；生化材设计。

似然/后验分布难以得到

近似贝叶斯计算(Approximate Bayesian computation,ABC)

当似然分布 $p\left(D_{1: t} \mid f\right)$ 不可得到或不可解时(工程领域黑匣子问题), 那么后验分布 $p\left(f \mid D_{1: t}\right)$ 也就无法得到，导致对于目标分布的刻画极为困难。ABC保持了 Bayes分析基本框架和概率解释的同时解除了对数据似然精确解析形式的强制依赖．其显著地特征就是用模拟的方法替代对似然函数的计算. 尤其是对于复杂的模型估计, 该方法具有明显的优势.

贝叶斯近似计算有两个近似部分:

(1) 数据近似:观测数据 $\boldsymbol{y}_{n}$ 认为是高维、高复杂，需要观测数据低维度充分统计量(概括统计量)

(2) 模拟近似:针对已知观测数据, 生成的数据保持一定范围内近似, $D\left(\eta(z), \eta\left(\boldsymbol{y}_{n}\right)\right) \leqslant \delta$

其中先验分布和数据生成器由不同问题采取不同方法,属于输出范围内寻找输入。ABC要求是:观测数据(多)处于求解分布内,而不仅仅是输入空间的任意数据; 需要合理数据生成模型和先验分布;真实评估/统计量计算并不昂贵。现常应用于参数估计、结构损伤识别分析、不确定因素分析。用于数学模型的参数分析情况中，目的是为了使得模型的输出尽可能与观测输出一致。

最后，贝叶斯才是真的神！

萌新待开发

关注

2
点赞
踩
15

收藏

觉得还不错? 一键收藏
打赏
0
评论
贝叶斯理论框架综述

对高效全局优化(Efficient Global Optimization,EGO)有了更全面的理解，该优化方法与贝叶斯推理有着密切的联系。文章从所应用的数据类型(离散和连续)出发，回顾了贝叶斯方法在离散空间和在连续空间中具有代表性的应用方法。在离散空间中，贝叶斯往往依赖于频率统计和先验条件的假设，文章简要描述了离散条件下贝叶斯推理的应用场景和先置条件。在对数据类型为连续型的背景中，贝叶斯推理方法更依赖于对连续分布的建立，文章侧重的探讨了贝叶斯似然函数是否可计算的两种情况中的推理原理，以及应用背景和区别。.
复制链接

扫一扫