贝叶斯理论框架综述

对高效全局优化(Efficient Global Optimization,EGO)有了更全面的理解,该优化方法与贝叶斯推理有着密切的联系。文章从所应用的数据类型(离散和连续)出发,回顾了贝叶斯方法在离散空间和在连续空间中具有代表性的应用方法。在离散空间中,贝叶斯往往依赖于频率统计和先验条件的假设,文章简要描述了离散条件下贝叶斯推理的应用场景和先置条件。在对数据类型为连续型的背景中,贝叶斯推理方法更依赖于对连续分布的建立,文章侧重的探讨了贝叶斯似然函数是否可计算的两种情况中的推理原理,以及应用背景和区别。这里不讨论B贝叶斯神经网络(Bayesian Neural Networks)

贝叶斯定理(Bayesian Theorem)

贝叶斯定理,又称贝叶斯推理,其与随机变量的条件概率以及边缘概率分布有关,是一种通过计算条件概率来获得目标后验的方法。

p\left(f \mid D_{1: t}\right)=\frac{p\left(D_{1: t} \mid f\right) p(f)}{p\left(D_{1: t}\right)}

其中, f表示未知目标函数;D_{1: t}=\left\{\left(\boldsymbol{x}_{1}, y_{1}\right),\left(\boldsymbol{x}_{2}, y_{2}\right), \ldots,\left(\boldsymbol{x}_{t}, y_{t}\right)\right\}表示已观测集合, \boldsymbol{x}_{t}表示决策向量, y_{t}=f\left(x_{t}\right)+\varepsilon_{t}表示观测值, \varepsilon_{t}表示观测误差; p(f)表示f的先验概率分布, 即对未知目标函数状态的假设; p\left(D_{1: t} \mid f\right)表示y的似然分布, 由于观测值存在误差, 所以也称为“噪声”;  p\left(D_{1: t}\right)表示边际化f的边际似然分布或者“证据”, 该边际似然存在概率密度函数的乘积和积分, 通常难以得到明确的解析式,可使用最小二乘等估计手段确定;p\left(f \mid D_{1: t}\right)表示 f的后验概率分布,后验概率分布描述通过已观测数据集对先验进行修正后未知目标函数的置信度. 那么根据D_{1: t}的数据类型, 可以分为离散型和连续性。以下根据数据的类型分别介绍各个基于贝叶斯推理的应用方法。

离散空间

朴素贝叶斯

朴素贝叶斯是基于贝叶斯定理的一种分类方法,它假设各属性对结果的影响相互独立,这样就将联合概率密度的计算转化为多个一维概率密度的计算,降低了计算开销。
对于似然函数,通过频率次数进行计算得到,朴素贝叶斯的目标是最大会后验分布,即最大可能的分类:

P\left(c_{i} \mid a_{1}, a_{2}, a_{3}, a_{4}\right)=\alpha P\left(c_{i}\right) \prod_{j=1}^{N} P\left(a_{j} \mid c_{i}\right)

C_{\mathrm{MAP}}=\underset{c_{i} \in C}{\arg \max } P\left(c_{i} \mid a_{1}, a_{2}, a_{3}, a_{4}\right)

对于文本分类这一任务,现在有大量的神经网络方面的优秀模型可供使用,但这些模型常常需要耗费大量的时间、资源进行训练,而朴素贝叶斯这个模型虽然简单,但是其分类效果已经基本满足工程所需。 常用于数据分类、攻击识别、资源分配决策。

贝叶斯网络推理算法

也称信念网络(Belief Network),是基于多元统计分析技术的一种统计推理方法。通过有方向的图形来表达事件之间的概率关系,每个事件之间通过有方向的箭头连接的节点组成。每一个节点表示一个随机变量,而且每个变量之间都是相互独立的,箭头表示变量之间的原因与结果的关系。箭头方向的意义在于一个变量的变化可以引起另一个变量的变化。

 \mathrm{P}(\mathrm{A}, \mathrm{B}, \mathrm{C}, \mathrm{D}, \mathrm{E}) =P(E \mid C) P((D \mid C) P(C \mid A, B) P(A, B) \\ =P(E \mid C) P((D \mid C) P(C \mid A, B) P(A) P(B)

贝叶斯网络是因果的概率,所有的先验概率都是根据经验统计得到。其中先置条件需要数据的结构化、以及网络的构建。常用于风险分析、行为分析。

连续空间

似然/后验分布可得到

当优化危险化学试剂成分时,错误的试剂成分融合可能发生毁灭性的爆炸;当优化药物配方时,潜在致命的药物配方可能导致临床病人死亡;当优化航天飞机零部件配置时,不科学的零部件尺寸、结构配置可能导致航天飞机的运行不稳定甚至发生严重的航天事故.由于对这些优化目标进行评估时会花费大量的时间、费用乃至危害生命,因此,在优化时通常希望在少量评估代价下得到满意解.

贝叶斯优化两个部分:

(1)  使用概率模型代理原始评估代价高昂的复杂目标函数. 通过可观察点D_{1: t},求得后验分布:p\left(f \mid D_{1: t}\right).

(2)  利用代理模型的后验信息p\left(f \mid D_{1: t}\right)构造选择策略选择样本点,即填充策略或是获取函数. 

概率模型:参数模型和非参数模型。参数模型:贝塔-伯努利(Beta-Bernoulli)模型、线性模型(径向基函数); 非参数模型:高斯过程、深度神经网络。

 p\left(\boldsymbol{w} \mid D_{1: t}\right)=\prod_{i=1}^{K} \operatorname{Beta}\left(w_{i} \mid \alpha+n_{i, 1}, \beta+n_{i, 0}\right)

p\left(\boldsymbol{w}, \sigma \mid \mu_{0}, \boldsymbol{V}_{0}, \alpha_{0}, \beta_{0}\right)=\left|2 \pi \sigma^{2} V_{0}\right|^{-\frac{1}{2}} \times \frac{\beta_{0}^{\alpha_{0}}}{\Gamma\left(\alpha_{0}\right) \sigma^{2 \alpha_{0}+2}} \times \exp \left(-\frac{\left(\boldsymbol{w}-\mu_{0}\right)^{T} \boldsymbol{V}_{0}^{-1}\left(\boldsymbol{w}-\mu_{0}\right)+2 \beta_{0}}{2 \sigma^{2}}\right)

\left.p(\boldsymbol{y} \mid \boldsymbol{f})=\mathcal{N} (\boldsymbol{f}, \sigma^{2} \boldsymbol{I}\right)

 

填充策略:probability of improvement、expected improvement、upper confidence bound、Thompson sampling。其中贝叶斯优化中使用了高斯过程和EI则被称为EGO(Efficient Global Optimization)。

贝叶斯优化条件:输入范围域可知,目标函数能被替代模型拟合,观测数据(少)。缺点:强烈依赖于替代模型,即先验和后验分布,如果最终能够产生拟合度很高的高斯过程, 高斯过程模型决定了数据呈高斯分布,确实能够附带描述特定输出的分布,总体仍是输入范围内寻找输入。维数高、数据量大,概率模型的构建就会困难不准确; 同时,候选点的选择上无意义,构建概率模型和求解速度就会变慢。这就导致贝叶斯优化的发展有两个方向:概率模型的增强(高纬度、多任务、冻融)与填充策略的增强(并行化、约束和敏感性、距离敏感)。

应用的热门领域:推荐系统,Google 和 Microsoft 等公司根据订阅者订阅的网站、视频、音乐等方面的内容为订阅者推荐相关的新闻文章;在一定查询预算的前提下,在广告与网页优化设计中,通过点击率等帮助设计和改善产品;生化材设计。

似然/后验分布难以得到

近似贝叶斯计算(Approximate Bayesian computation,ABC)

当似然分布p\left(D_{1: t} \mid f\right)不可得到或不可解时(工程领域黑匣子问题), 那么后验分布p\left(f \mid D_{1: t}\right)也就无法得到,导致对于目标分布的刻画极为困难。ABC保持了 Bayes分析基本框架和概率解释的同时解除了对数据似然精确解析形式的强制依赖.其显著地特征就是用模拟的方法替代对似然函数的计算. 尤其是对于复杂的模型估计, 该方法具有明显的优势.

贝叶斯近似计算有两个近似部分:

(1) 数据近似:观测数据\boldsymbol{y}_{n}认为是高维、高复杂,需要观测数据低维度充分统计量(概括统计量)

(2) 模拟近似:针对已知观测数据, 生成的数据保持一定范围内近似,D\left(\eta(z), \eta\left(\boldsymbol{y}_{n}\right)\right) \leqslant \delta

 其中先验分布和数据生成器由不同问题采取不同方法,属于输出范围内寻找输入。ABC要求是:观测数据(多)处于 求解分布内,而不仅仅是输入空间的任意数据; 需要合理数据生成模型和先验分布;真实评估/统计量计算并不昂贵。现常应用于参数估计、结构损伤识别分析、不确定因素分析。用于数学模型的参数分析情况中,目的是为了使得模型的输出尽可能与观测输出一致。

最后,贝叶斯才是真的神!

  • 2
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
贝叶斯理论是一种用来描述不确定性问题的概率理论方法。在贝叶斯理论中,参数被认为是一个随机变量,而不是一个固定值。参数的取值在先验分布中被指定。在观察到新数据之后,参数的后验分布被计算。这个后验分布是新数据和先验信息的加权和,权重是数据的似然函数和先验分布的密度。这种方法被广泛应用于数据分析、模型选择、参数估计等问题。 在 MATLAB 中,贝叶斯方法可以用于分布拟合。分布拟合是一种将数据与概率分布进行比较的方法,通常用于检验一组数据是否符合某种分布。MATLAB 中有两种方法进行分布拟合:最大似然估计和贝叶斯方法。 最大似然估计是基于已知数据的似然函数,寻找使似然函数最大的参数估计值。该方法适用于样本量较大的情况下,具有较高的计算效率和统计效率。但是,它无法利用先验信息,并且在样本量较小和似然函数多峰的情况下可能会失效。 贝叶斯方法则可以更好地利用先验信息。它可以在数据样本量较小的情况下有效地进行分布拟合,并且可以处理高度不确定的分布。在 MATLAB 中,贝叶斯方法可以用 bayesfit 函数实现。bayesfit 函数使用贝叶斯方法进行分布拟合,同时可以使用先验函数进行参数估计。它可以输出后验分布和估计的置信区间,这对于应对不确定性问题非常有用。 总之,MATLAB 中的贝叶斯方法可以有效地进行分布拟合,尤其是在数据样本量较小的情况下。在分布拟合中,应该根据具体情况选择最大似然估计或贝叶斯方法,以获得更准确的估计结果。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

萌新待开发

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值