Bayesian Optimization 贝叶斯优化在无需求导的情况下,求一个黑盒函数的全局最优解的一系列设计策略。(Wikipedia)
最优解问题
最简单的,获得最优解的方法,就是网格搜索Grid Search了。
如果网格搜索开销稍微有点大,可以尝试随机搜索Random Search。
如果是凸函数Convex Function,我们可以用Gradient Descent。大量的机器学习算法,都用了这个。如线性回归,逻辑回归等。
如果,这个黑盒函数的开销非常大,又不是凸函数,我们则考虑贝叶斯优化。
贝叶斯优化概念
贝叶斯优化我们把这个黑盒函数叫做目标函数Objective Function。因为目标函数的开销大,我们要给他找一个近似函数,这个函数叫代理函数Surrogate Function。代理函数会计算出一条平均值曲线和对应的标准差(Standard Deviation)。有个代理函数,我们就可以找到一下个探索点。这个过程,用一个获取函数Acquisition Function里实现。
贝叶斯优化,是在一个特定的搜索空间search space展开的。
整个过程如下:
- 在搜索空间中,选几个初始点X
- 用目标函数计算初始点X对应的解y
- 更新代理函数
- 通过acquisition function获得下一个样本点。
- Goto 2
中英文流程图如下:
代理函数,一般就是用Gussian Process。
Acquisition Function的选择比较多。常见的有:
- Probability of Improvement (PI).
- Expected Improvement (EI).
- Upper/Lower Confidence Bound (LCB/UCB).
这里我们用 UCB.
a u c b ( x ; β ) = μ ( x ) + β σ ( x ) a_{ucb}(x;\beta) =\mu(x) + \beta\sigma(x) <