AutoML 系列 - TPE简介

最新推荐文章于 2025-03-21 02:29:17 发布

转行的炼丹师

最新推荐文章于 2025-03-21 02:29:17 发布

阅读量5k

点赞数 6

分类专栏：超参数优化文章标签：机器学习

本文链接：https://blog.csdn.net/jose_M/article/details/106214842

版权

超参数优化专栏收录该内容

3 篇文章

订阅专栏

本文主要对 Tree-structured Parzen Estimator Approach (TPE) 进行介绍

SMBO 算法框架包含一系列优化算法，基本框架如下，而这个框架下的一系列算法的区别主要就在于选取的 surrogate model $M$ 以及评价标准 $S$ 。
在这里插入图片描述
这里介绍一种基于这个框架的优化方法，Tree-structured Parzen Estimator Approach (TPE)

TPE

该方法选择的评价标准 $S$ 为 Expected Improvement (EI)，即 $f (x)$ 会小于某个阈值 $y^*$ 的期望。

$EI_{y^*}(x)=\int_{-\infty}^{\infty}max(y^*-y,0)p(y|x)dy$

TPE 定义如下两个概率密度，

$p(x|y)=\left\{ \begin{aligned} l(x), \ y<y^*\\ g(x),\ y \geq y^*\\ \end{aligned} \right.$

$l (x)$ 为 $f(x^i)$ 的值小于 $y^*$ 对应的 ${x^i\}$ 集合的概率密度； $g (x)$ 为 $f(x^i)$ 的值大于等于 $y^*$ 对应的 ${x^i\}$ 集合的概率密度。这两个概率密度即为 $M$ 。

那么 $y^*$ 如何决定呢？

TPE 采取的方法是，选取在 ${y^i\}$ 的一定分位数 $\gamma$ 处的数值作为 $y^*$ ，即 $p(y<y^*)=\gamma$ 。

接下来的问题就在于如何求解上面伪代码中第3行的优化问题了。

因为我们无法直接得知 $p (y ∣ x)$ ，所以使用贝叶斯公式进行如下转换，

$EI_{y^*}(x)=\int_{-\infty}^{\infty}max(y^*-y,0)p(y|x)dy \\ =\int_{-\infty}^{y^*}max(y^*-y,0)p(y|x)dy \\ = \int_{-\infty}^{y^*}max(y^*-y,0)\frac{p(x|y)p(y)}{p(x)}dy$

又因为 $\gamma = p(y<y^*)$ 并且 $p(x)=\int p(x|y)p(y)dy=\gamma l(x) + (1-\gamma)g(x)$ ，

所以
$EI_{y^*}(x)= \int_{-\infty}^{y^*}max(y^*-y,0)\frac{p(x|y)p(y)}{p(x)}dy \\ = \frac{ \int_{-\infty}^{y^*}max(y^*-y,0)p(x|y)p(y)dy}{p(x)} \\ = \frac{ l(x)*\int_{-\infty}^{y^*}max(y^*-y,0)p(y)dy}{p(x)} \\ = \frac{ l(x)y^*\gamma-l(x)\int_{-\infty}^{y^*}p(y)dy}{\gamma l(x) + (1-\gamma)g(x)} \\ \propto(\gamma+\frac{g(x)}{l(x)}(1-\gamma))^{-1}$

所以我们可以看出，通过 $l (x)$ 求出概率较高，通过 $g (x)$ 求出概率较小的 $x$ ，会使 $E I$ 较大。 $l (x)$ 和 $g (x)$ 用 tree-structured 的形式表示，会比较方便根据 $l (x)$ 进行采样，并计算 $g (x) / l (x)$ 。