GFlowNet Foundation 笔记（四）

最新推荐文章于 2024-06-18 09:36:11 发布

吊儿郎当的凡

最新推荐文章于 2024-06-18 09:36:11 发布

阅读量1.1k

点赞数

分类专栏： GFlowNet

本文链接：https://blog.csdn.net/weixin_43269419/article/details/122338065

版权

GFlowNet 专栏收录该内容

5 篇文章 5 订阅

订阅专栏

系列文章
GFlowNet Foundation 笔记（一）
GFlowNet Foundation 笔记（二）
GFlowNet Foundation 笔记（三）

确定环境和随机环境中的策略

Def 34. 策略( policy ) $\pi: \mathcal{A} \times \mathcal{S} \mapsto \R$ 为概率分布 $\pi (a | s)$ 。其中，行动 $\in \mathcal{A}$ ，定义 $\mathcal{A}(s)$ 为状态 $s$ 的有效行动。

Def 35. 偶状态( even states ) 的形式为 $\in \mathcal{S}$ ，奇状态( odd states ) 的形式为 $\in \mathcal{S} \times \mathcal{A}$ ，环境( environment ) $P(s_t \rightarrow s_{t+1} | s_t, a_t)$ 控制从奇状态到下一个偶状态的转移。
偶到偶的转移表示为
$\begin{aligned} P_F(s_{t+1} | s_t) &= \sum_{a_t} P(s_t \rightarrow s_{t+1}, a_t | s_t) \\ &= \sum_{a_t} P(s_t \rightarrow s_{t+1} | s_t, a_t) \pi (a_t | s_t) \\ \end{aligned}$

对于后向转移，奇到偶转移为
$P_B(s_t | (s_t, a_t)) = 1$

已知的确定环境

Prop 23. 对于一个确定的转移函数 $\mathcal{S} \times \mathcal{A} \mapsto \mathcal{S}$ 有 $s_{t+1} = T(s_t, a_t)$ ，前向转移概率为
$P_F(s_{t+1} | s_t) = \sum_{a: T(s_t, a) = s_{t+1}} \pi (a | s_t)$

当 $T(s_t, a_t) = s_{t+1}$ 时, $P(s_t \rightarrow s_{t+1} | s_t, a_t) = 1$ 。

Prop 24. 后向转移概率可用后向策略 $\pi_B$ 表示
$P_B(s_t | s_{t+1}) = \sum_{a: T(s_t, a) = s_{t+1}} \pi_B(a | s_{t+1})$

自由选择后向转移

Def 36. 如果仅受以下约束而不受其他约束，则可以自由选择后向转移概率 $P_B$ ：

$P_B(s | s_f) = \frac{R(s)}{Z}$
如果 $\rightarrow s' \notin \mathcal{A}$ ，则 $P_B(s | s') = 0$

未知的确定环境

我们还需学习逆转移函数 $T^{-1} : \mathcal{S} \times \mathcal{A} \mapsto \mathcal{S}$ 有 $T^{-1}(T(s, a), a) = s$ 。

随机环境

Prop 25. 在随机环境下可能不会完美的实现 $\hat{F}(s \rightarrow s_f) = R(s)$ 。
proof. 如下图所示，当 $R (s^{'''}) > 0, P (s^{'''} ∣ s^{''}, a^{''}) = 0 ， P (s^{'''} ∣ s^{'}, a^{'}) = 0$ 时，无论怎样选择策略，都有 $\hat{F}(s \rightarrow s_f) \ne R(s)$
在这里插入图片描述

吊儿郎当的凡

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
GFlowNet Foundation 笔记（四）

系列文章GFlowNet Foundation 笔记（一）GFlowNet Foundation 笔记（二）GFlowNet Foundation 笔记（三）确定环境和随机环境中的策略Def 34. 策略( policy ) π:A×S↦R\pi: \mathcal{A} \times \mathcal{S} \mapsto \Rπ:A×S↦R 为概率分布 π(a∣s)\pi (a | s)π(a∣s) 。其中，行动 a∈Aa \in \mathcal{A}a∈A ，定义 A(s)\mathcal
复制链接

扫一扫

专栏目录