GFlowNet Foundation 笔记(四)

系列文章
GFlowNet Foundation 笔记(一)
GFlowNet Foundation 笔记(二)
GFlowNet Foundation 笔记(三)

确定环境和随机环境中的策略

Def 34. 策略( policy ) π : A × S ↦ R \pi: \mathcal{A} \times \mathcal{S} \mapsto \R π:A×SR 为概率分布 π ( a ∣ s ) \pi (a | s) π(as) 。其中,行动 a ∈ A a \in \mathcal{A} aA ,定义 A ( s ) \mathcal{A}(s) A(s) 为状态 s s s 的有效行动。

Def 35. 偶状态( even states ) 的形式为 s ∈ S s \in \mathcal{S} sS奇状态( odd states ) 的形式为 ( s , a ) ∈ S × A (s, a) \in \mathcal{S} \times \mathcal{A} (s,a)S×A环境( environment ) P ( s t → s t + 1 ∣ s t , a t ) P(s_t \rightarrow s_{t+1} | s_t, a_t) P(stst+1st,at) 控制从奇状态到下一个偶状态的转移。
偶到偶的转移表示为
P F ( s t + 1 ∣ s t ) = ∑ a t P ( s t → s t + 1 , a t ∣ s t ) = ∑ a t P ( s t → s t + 1 ∣ s t , a t ) π ( a t ∣ s t ) \begin{aligned} P_F(s_{t+1} | s_t) &= \sum_{a_t} P(s_t \rightarrow s_{t+1}, a_t | s_t) \\ &= \sum_{a_t} P(s_t \rightarrow s_{t+1} | s_t, a_t) \pi (a_t | s_t) \\ \end{aligned} PF(st+1st)=atP(stst+1,atst)=atP(stst+1st,at)π(atst)

对于后向转移,奇到偶转移为
P B ( s t ∣ ( s t , a t ) ) = 1 P_B(s_t | (s_t, a_t)) = 1 PB(st(st,at))=1

已知的确定环境

Prop 23. 对于一个确定的转移函数 T : S × A ↦ S T: \mathcal{S} \times \mathcal{A} \mapsto \mathcal{S} T:S×AS s t + 1 = T ( s t , a t ) s_{t+1} = T(s_t, a_t) st+1=T(st,at) ,前向转移概率为
P F ( s t + 1 ∣ s t ) = ∑ a : T ( s t , a ) = s t + 1 π ( a ∣ s t ) P_F(s_{t+1} | s_t) = \sum_{a: T(s_t, a) = s_{t+1}} \pi (a | s_t) PF(st+1st)=a:T(st,a)=st+1π(ast)

T ( s t , a t ) = s t + 1 T(s_t, a_t) = s_{t+1} T(st,at)=st+1 时, P ( s t → s t + 1 ∣ s t , a t ) = 1 P(s_t \rightarrow s_{t+1} | s_t, a_t) = 1 P(stst+1st,at)=1

Prop 24. 后向转移概率可用后向策略 π B \pi_B πB 表示
P B ( s t ∣ s t + 1 ) = ∑ a : T ( s t , a ) = s t + 1 π B ( a ∣ s t + 1 ) P_B(s_t | s_{t+1}) = \sum_{a: T(s_t, a) = s_{t+1}} \pi_B(a | s_{t+1}) PB(stst+1)=a:T(st,a)=st+1πB(ast+1)

自由选择后向转移

Def 36. 如果仅受以下约束而不受其他约束,则可以自由选择后向转移概率 P B P_B PB

  1. P B ( s ∣ s f ) = R ( s ) Z P_B(s | s_f) = \frac{R(s)}{Z} PB(ssf)=ZR(s)
  2. 如果 s → s ′ ∉ A s \rightarrow s' \notin \mathcal{A} ss/A ,则 P B ( s ∣ s ′ ) = 0 P_B(s | s') = 0 PB(ss)=0

未知的确定环境

我们还需学习逆转移函数 T − 1 : S × A ↦ S T^{-1} : \mathcal{S} \times \mathcal{A} \mapsto \mathcal{S} T1:S×AS T − 1 ( T ( s , a ) , a ) = s T^{-1}(T(s, a), a) = s T1(T(s,a),a)=s

随机环境

Prop 25. 在随机环境下可能不会完美的实现 F ^ ( s → s f ) = R ( s ) \hat{F}(s \rightarrow s_f) = R(s) F^(ssf)=R(s)
proof. 如下图所示,当 R ( s ′ ′ ′ ) > 0 , P ( s ′ ′ ′ ∣ s ′ ′ , a ′ ′ ) = 0 , P ( s ′ ′ ′ ∣ s ′ , a ′ ) = 0 R(s''') > 0, P(s''' | s'', a'') = 0, P(s''' | s', a') = 0 R(s)>0,P(ss,a)=0P(ss,a)=0 时,无论怎样选择策略,都有 F ^ ( s → s f ) ≠ R ( s ) \hat{F}(s \rightarrow s_f) \ne R(s) F^(ssf)=R(s)
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值