GFlowNet
文章平均质量分 89
吊儿郎当的凡
但行好事 莫问前程
展开
-
GFlowNet Foundation 笔记(五)
系列文章 GFlowNet Foundation 笔记(一) GFlowNet Foundation 笔记(二) GFlowNet Foundation 笔记(三) GFlowNet Foundation 笔记(四) 期望的奖励和奖励最大策略 Def 37. 对于在终止状态上的任意分布 Pπ(s)P_{\pi}(s)Pπ(s) ,期望奖励( expected reward ) 为 VPπ(s)=EPπ(S)[R(S)∣S≥s]=∑s′≥sR(s′)Pπ(s′∣s≤s′) V_{P_{\pi}}(s) =原创 2022-01-07 20:32:33 · 784 阅读 · 0 评论 -
GFlowNet Foundation 笔记(四)
系列文章 GFlowNet Foundation 笔记(一) GFlowNet Foundation 笔记(二) GFlowNet Foundation 笔记(三) 确定环境和随机环境中的策略 Def 34. 策略( policy ) π:A×S↦R\pi: \mathcal{A} \times \mathcal{S} \mapsto \Rπ:A×S↦R 为概率分布 π(a∣s)\pi (a | s)π(a∣s) 。其中,行动 a∈Aa \in \mathcal{A}a∈A ,定义 A(s)\mathcal原创 2022-01-07 09:35:06 · 1197 阅读 · 0 评论 -
GFlowNet Foundation 笔记(三)
系列文章 GFlowNet Foundation 笔记(一) GFlowNet Foundation 笔记(二) 条件流与自由能 Def 24. 已知自由能 F(s)\mathcal{F}(s)F(s) e−F(s)=∑s′:s′≥sR(s′)=∑s′:s′≥se−F(s′) e^{-\mathcal{F}(s)} = \sum_{s': s' \ge s} R(s') = \sum_{s': s' \ge s} e^{-\mathcal{F}(s')} e−F(s)=s′:s′≥s∑R(s′)=s′:s原创 2022-01-04 10:51:55 · 674 阅读 · 0 评论 -
GFlowNet Foundation 笔记(二)
学习流量 Def 18. GFlowNet 可用 (F^(s),P^F(st+1∣st))(\hat{F}(s), \hat{P}_F(s_{t+1} | s_t))(F^(s),P^F(st+1∣st)) 表示。 从终止流量估计转移概率 终止流量对应终止奖励函数 RRR R(s)=F(s→sf) R(s) = F(s \rightarrow s_f) R(s)=F(s→sf) 推论3. 上面的式子可以推导出总流量 Z=F(s0)=F(sf)=∑s∈Par(sf)R(s) Z = F(s_0) =原创 2022-01-01 15:41:32 · 628 阅读 · 1 评论 -
GFlowNet Foundation 笔记(一)
马尔可夫流量的测量 轨迹( trajectories )和流量( flows ) Def 1. 一个有向图用 (S,A)(\mathcal{S}, \mathbb{A})(S,A) 表示,其中 S\mathcal{S}S 为状态的集合, A\mathbb{A}A 为 S×S\mathcal{S} \times \mathcal{S}S×S 大小的有向边的子集。 A\mathbb{A}A 中的元素表示为 s→s′s \rightarrow s's→s′ ,叫做 边缘( edges ) 或 转移( transi原创 2021-12-28 11:49:37 · 1235 阅读 · 0 评论