GFlowNet Foundation 笔记(五)

系列文章
GFlowNet Foundation 笔记(一)
GFlowNet Foundation 笔记(二)
GFlowNet Foundation 笔记(三)
GFlowNet Foundation 笔记(四)

期望的奖励和奖励最大策略

Def 37. 对于在终止状态上的任意分布 P π ( s ) P_{\pi}(s) Pπ(s)期望奖励( expected reward )
V P π ( s ) = E P π ( S ) [ R ( S ) ∣ S ≥ s ] = ∑ s ′ ≥ s R ( s ′ ) P π ( s ′ ∣ s ≤ s ′ ) V_{P_{\pi}}(s) = E_{P_{\pi}(S)}[R(S) | S \ge s] = \sum_{s' \ge s} R(s')P_{\pi}(s' | s \le s') VPπ(s)=EPπ(S)[R(S)Ss]=ssR(s)Pπ(sss)

Prop 26. 如果在终止状态上的分布为 P T P_T PT ,期望奖励为
V P T ( s ) = ∑ s ′ ≥ s R ( s ′ ) P T ( s ′ ∣ s ≤ s ′ ) = ∑ s ′ ≥ s R ( s ′ ) P ( s ′ → s f ∣ s ≤ s ′ ) = ∑ s ′ ≥ s R ( s ′ ) F ( s ′ → s f ) F ( s ) = ∑ s ′ ≥ s R ( s ′ ) R ( s ′ ) ∑ s ′ ≥ s R ( s ′ ) = ∑ s ′ ≥ s R ( s ′ ) 2 ∑ s ′ ≥ s R ( s ′ ) \begin{aligned} V_{P_T}(s) &= \sum_{s' \ge s} R(s') P_T(s' | s \le s') \\ &= \sum_{s' \ge s} R(s') P(s' \rightarrow s_f | s \le s') \\ &= \sum_{s' \ge s} R(s') \frac{F(s' \rightarrow s_f)}{F(s)} \\ &= \sum_{s' \ge s} R(s') \frac{R(s')}{\sum_{s' \ge s}R(s')} \\ &= \frac{\sum_{s' \ge s}R(s')^2}{\sum_{s' \ge s}R(s')} \end{aligned} VPT(s)=ssR(s)PT(sss)=ssR(s)P(ssfss)=ssR(s)F(s)F(ssf)=ssR(s)ssR(s)R(s)=ssR(s)ssR(s)2

Prop 27. 策略 π \pi π 的终止状态分布为 P π P_{\pi} Pπ π \pi π 为贪婪策略,有
π ˉ ( a ∣ s ) = 0   u n l e s s V P π ( ( s , a ) ) ≥ V P π ( ( s , a ′ ) )   ∀ a ′ \bar\pi(a | s) = 0 \ unless \\ V_{P_{\pi}}((s, a)) \ge V_{P_{\pi}}((s, a')) \ \forall a' πˉ(as)=0 unlessVPπ((s,a))VPπ((s,a)) a

那么,对于所有的 s s s
V P π ˉ ( s ) ≥ V P π ( s ) V_{P_{\bar\pi}}(s) \ge V_{P_{\pi}}(s) VPπˉ(s)VPπ(s)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值