GFlowNet Foundation 笔记（五）

最新推荐文章于 2025-01-08 13:17:57 发布

吊儿郎当的凡

最新推荐文章于 2025-01-08 13:17:57 发布

阅读量814

点赞数

分类专栏： GFlowNet

本文链接：https://blog.csdn.net/weixin_43269419/article/details/122357789

版权

GFlowNet 期望奖励贪婪策略终止状态分布最大策略

关键词由CSDN通过智能技术生成

GFlowNet 专栏收录该内容

5 篇文章

订阅专栏

系列文章
GFlowNet Foundation 笔记（一）
GFlowNet Foundation 笔记（二）
GFlowNet Foundation 笔记（三）
GFlowNet Foundation 笔记（四）

期望的奖励和奖励最大策略

Def 37. 对于在终止状态上的任意分布 $P_{\pi}(s)$ ，期望奖励( expected reward ) 为
$V_{P_{\pi}}(s) = E_{P_{\pi}(S)}[R(S) | S \ge s] = \sum_{s' \ge s} R(s')P_{\pi}(s' | s \le s')$

Prop 26. 如果在终止状态上的分布为 $P_T$ ，期望奖励为
$\begin{aligned} V_{P_T}(s) &= \sum_{s' \ge s} R(s') P_T(s' | s \le s') \\ &= \sum_{s' \ge s} R(s') P(s' \rightarrow s_f | s \le s') \\ &= \sum_{s' \ge s} R(s') \frac{F(s' \rightarrow s_f)}{F(s)} \\ &= \sum_{s' \ge s} R(s') \frac{R(s')}{\sum_{s' \ge s}R(s')} \\ &= \frac{\sum_{s' \ge s}R(s')^2}{\sum_{s' \ge s}R(s')} \end{aligned}$