GFlowNet Foundation 笔记（三）

最新推荐文章于 2024-06-18 09:36:11 发布

吊儿郎当的凡

最新推荐文章于 2024-06-18 09:36:11 发布

阅读量658

点赞数

分类专栏： GFlowNet

本文链接：https://blog.csdn.net/weixin_43269419/article/details/122275598

版权

GFlowNet 专栏收录该内容

5 篇文章 5 订阅

订阅专栏

系列文章
GFlowNet Foundation 笔记（一）
GFlowNet Foundation 笔记（二）

条件流与自由能

Def 24. 已知自由能 $\mathcal{F}(s)$
$e^{-\mathcal{F}(s)} = \sum_{s': s' \ge s} R(s') = \sum_{s': s' \ge s} e^{-\mathcal{F}(s')}$

其中， $s^{'}$ 为终止状态。注意， $e^{-\mathcal{F}(s)}$ 并不等同于 $F (s)$ 。

条件化 GFlowNet

除了 F(s) 之外，还有另一个可用于估计的量。即对于 $\le s'$ ，如果所有通过终止边缘 $\rightarrow s_f$ 的流量都转向 $s$ ，则通过 $s$ 的流量总和将表示自由能，如下图所示。
在这里插入图片描述
Def 25. 用 $s_0 | x$ 和 $s_f | x$ 分别表示在条件变量 $x$ 下的源状态和汇状态。使用 $R (s ∣ x)$ 表示在条件 $x$ 下的终止奖励函数。

Prop 17. 当 GFlowNet 训练完成时
$F(s_0 | x) = \sum_{s | x} R(s | x) = Z(x)$

Proof.
$\begin{aligned} \sum_{s | x} R(s | x) &= \sum_{s | x}F(s \rightarrow s_f | x) \\ &= \sum_{s | x} \sum_{s \in \tau} F(\tau) \\ &= \sum_{\tau | x} F(\tau) = F(s_0 | x) \end{aligned}$

估计自由能

Def 30. 状态条件 GFlowNet 是条件 GFlowNet 的一种特殊形式，即条件集合 $\mathcal{X}$ 为状态集合，即 $\forall s \in \mathcal{X}, s < s'$ 。如果 $\rightarrow s'' \in \mathbb{A}$ ，根据马尔可夫性质
$P_F(s'' | s', s) = P(s' \rightarrow s'' | s', s) = P(s' \rightarrow s'' | s') = P_F(s'' | s')$

状态条件 GFlowNet 的训练目标为
$\mathcal{L} = E_{(s_0, s_1, ..., s_n, s_f) \sim \pi_T}\Big[ \sum_{t=0}^n E_{0 \le t' \le t}[L(s_t, s_{t+1} | s_{t'})] \Big] \\ L(s', s'' | s) = \Big( log(\frac{\delta + \hat{F}(s' | s) \hat{P}_F(s'' | s')}{\delta + \hat{F}(s'' | s) \hat{P}_B(s' | s'', s)}) \Big)^2$

Def 31. 称 $F (s ∣ s)$ 为条件状态自流量。 $F (s ∣ s)$ 表示当仅允许通过 s 的轨迹时通过 s 的流，并通过所有 s0 产生所需的流 R(s0)。

Prop 19. 当 GFlowNet 训练完成时
$\begin{aligned} e^{-\mathcal{F}(s)} &= F(s | s) \\ &= \sum_{s' \ge s}R(s') \\ &= \sum_{s' \ge s}F(s' \rightarrow s_f) \end{aligned}$

Def 32. 定义条件终止概率分布为
$\begin{aligned} P_T(s | A) &= \frac{P(s \rightarrow s_f, A)}{P(A)} \\ &= \frac{1_{s \rightarrow s_f \in A} P(s \rightarrow s_f)}{\sum_{s' \rightarrow s_f \in A}P(s' \rightarrow s_f)} \\ &= \frac{1_{s \in A} P(s \rightarrow s_f)}{\sum_{s' \in A}P(s' \rightarrow s_f)} \\ &= \frac{\sum_{\tau \in A, s \rightarrow s_f \in \tau} P(\tau)}{\sum_{\tau \in A}P(\tau)} \end{aligned}$

其中， $A$ 为任意轨迹的集合。
$P_T(s | \mathcal{T}) = P_T(s) = P(s \rightarrow s_f) = \frac{R(s)}{F(s_0)} = e^{-\mathcal{E}(s) + \mathcal{F}(s_0)}$

Prop 20. 已知 $\le s'$
$\begin{aligned} P_T(s' | s) &= \frac{F(s' \rightarrow s_f)}{\sum_{s'' \ge s} F(s'' \rightarrow s_f)}\\ &= \frac{F(s' \rightarrow s_f)}{F(s | s)} \\ &= \frac{R(s')}{\sum_{s'' \ge s} R(s'')} \\ &= e^{-\mathcal{E}(s) + \mathcal{F}(s)} \end{aligned}$

使用 GFlowNet 训练基于能量的模型

定义模型 $P_{\theta}(s) = e^{-\mathcal{E}_{\theta}(s)} / Z$ ，其中 $s$ 为终止状态。根据 $\hat{P}_T$ 抽取的 GFlowNet 样本可用于获得上述模型在观测数据 $x$ 下的负对数似然的随机梯度估计量
$\begin{aligned} \frac{\delta -logP_{\theta}(x)}{\delta \theta} &= \frac{\delta \mathcal{E}_{\theta}(x)}{\delta \theta} + \frac{\delta log Z}{\delta \theta} \\ &= \frac{\delta \mathcal{E}_{\theta}(x)}{\delta \theta} + \frac{\delta log \sum_s e^{-\mathcal{E}_{\theta}(s)}}{\delta \theta} \\ &= \frac{\delta \mathcal{E}_{\theta}(x)}{\delta \theta} + \frac{1}{\sum_s e^{-\mathcal{E}_{\theta}(s)}} \sum_s e^{-\mathcal{E}_{\theta}(s)} (-\frac{\delta \mathcal{E}_{\theta}(s)}{\delta \theta})\\ &= \frac{\delta \mathcal{E}_{\theta}(x)}{\delta \theta} - \sum_s P_{\theta}(s) \frac{\delta \mathcal{E}_{\theta}(s)}{\delta \theta} \end{aligned}$

其中， $\sim \hat{P}_T(s)$ 。
引入隐变量 $h$ 后， $P_{\theta}(x, h) = e^{-\mathcal{E}_{\theta}(x, h)} / \sum_{x, h} e^{-\mathcal{E}_{\theta}(x, h)}$ ，边缘负对数似然的梯度变为
$\begin{aligned} \frac{\delta -logP_{\theta}(x)}{\delta \theta} &= \frac{\delta -log \sum_h P_{\theta}(x, h)}{\delta \theta} \\ &= -\frac{1}{\sum_h P_{\theta}(x, h)} \sum_h \frac{\delta P_{\theta}(x, h)}{\delta \theta} \\ &= -\frac{1}{P_{\theta}(x)} \sum_h \frac{\delta}{\delta \theta}(\frac{e^{-\mathcal{E}_{\theta}(x, h)}}{\sum_{x, h} e^{-\mathcal{E}_{\theta}(x, h)}}) \\ &= -\frac{1}{P_{\theta}(x)} \sum_h \Big( -P_{\theta}(x, h) \frac{\delta \mathcal{E}_{\theta}(x, h)}{\delta \theta} + P_{\theta}(x, h) \sum_{s, h} P_{\theta}(s, h) \frac{\delta \mathcal{E}_{\theta}(s, h)}{\delta \theta} \Big)\\ &= \sum_h P_{\theta}(h | x) \Big( \frac{\delta \mathcal{E}_{\theta}(x, h)}{\delta \theta} - \sum_{s, h} P_{\theta}(s, h) \frac{\delta \mathcal{E}_{\theta}(s, h)}{\delta \theta} \Big) \end{aligned}$

使用 GFlowNet 进行主动学习

训练分为外循环更新，即学习真实的能量函数（奖励函数），和内循环更新，即使用学习到的能量函数作为驱动目标训练 GFlowNet。

估计熵、条件熵和互信息

Def 33. 定义 熵奖励函数( entropic reward function ) $R^{'}$
$R^{'} (s) = - R (s) l o g R (s)$

新训练一个 GFlowNet ，原来的目标为 $R$ ，新训练的目标为 $R^{'}$ 。

Prop 21. 终止状态随机变量 $S$ 的熵 $H [S]$ 为
$\begin{aligned} H[S] &= -\sum_s P_T(s)log P_T(s) \\ &= -\sum_s \frac{R(s)}{F(s_0)} \Big( logR(s) - logF(s_0) \Big) \\ &= \frac{-\sum_s R(s)logR(s) + logF(s_0)\sum_s R(s)}{F(s_0)} \\ &= \frac{\sum_s R'(s)}{F(s_0)} + logF(s_0) \\ &= \frac{F'(s_0)}{F(s_0)} + log F(s_0) \\ \end{aligned}$

其中， $F^{'}$ 为新训练 GFlowNet 的流量度量。

Prop 22. 条件熵 $H [S ∣ x]$ 为
$\frac{F'(s_0 | x)}{F(s_0 | x)} + logF(s_0 | x)$

当 $x$ 是轨迹中的一个事件时，将考虑经过该事件的轨迹集合。当 $x = s$ 时，只考虑经过 $s$ 的轨迹
$\frac{F'(s_0 | s)}{F(s_0 | s)} + logF(s_0 | s) = \frac{F'(s | s)}{F(s | s)} + logF(s | s)$

Corollary 4. 终止状态随机变量 $S$ 和条件随机变量 $X$ 的互信息为
$E_X[H(S | X)] = \frac{F'(s_0)}{F(s_0)} + logF(s_0) - E_X[\frac{F'(s_0 | X)}{F(s_0 | X)} + log F(s_0 | X)]$