[課程筆記] 強化學習(李弘毅) L1. Policy Gradient

最新推荐文章于 2024-04-27 22:54:56 发布

傷心太平洋

最新推荐文章于 2024-04-27 22:54:56 发布

阅读量3k

点赞数

分类专栏：線上課程文章标签：深度学习

本文链接：https://blog.csdn.net/jylin_master/article/details/123174895

版权

7 篇文章 1 订阅

订阅专栏

Actor 中具有 Policy，負責決定 Actor 在特定條件下的行為
若我們使用 NN 來實現 policy ，則:
- NN 參數 : $\theta$
- NN 輸入 : actor 的觀察
- NN 輸出 : 根據輸入，得到所有可執行行為的機率分布
最後Actor 所採取的行為是根據 policy 輸出的機率分布取樣得到 (而不是直接取機率最大的，這樣才會有隨機性)

把 episode 過程中的 s, a 記錄下來，會得到一組 trajectory $\tau = \left \{ s_1, a_1, s_2, a_2, ... , s_T, a_T \right \}$
每個參數為 θ 的 policy，都可能產生多種 trajectory (因為 policy 書出去有隨機性，環境也有隨機性)
在給定 policy 參數 θ 下，可以計算出每一種 trajectory 發生的機率:
- $p(s_1)$ : actor 在遊戲一開始觀察到的環境狀態 (此項由環境所控制)
- $p_{\theta}(a_t | s_t)$ : actor 觀察到 $s_t$ 時，採取行為 $a_t$ 的機率 (此項由 policy 所控制)
- $p(s_{t+1}|s_t, a_t)$ : 當 actor 在觀察到 $s_t$ 並採取行為 $a_t$ 時，下個觀察得到 $s_{t+1}$ 的機率 (此項由環境所控制)
我們在更新 policy 時，所需要知道的是 policy 在參數 θ 下，總獎勵的期望值 :

$\bar{R}_{\theta} = \sum_{\tau}^{} R(\tau) p_{\theta}(\tau)$

透過前面提到的梯度會發現，我們在極大化獎勵期望值的時候，會根據獎勵大小鼓勵 actor 輸出合適的機率分布
如果獎勵全部都是正的，則被所有我們採樣到的情況，其機率分布會同時增加 (但有的增加的多，有的增加的少)
這樣會產生一個問題是，我們計算的獎勵期望值其實是近似 (因為沒有辦法窮舉所有情況)，所以對於沒有被我們採樣到的情況，其機率會被抑制 (因為別人都增加，但他不增加)

前面透過獎勵來更新參數時，考慮的是整個 trajectory 最後得到的總獎勵，忽略了 trajectory 中每個行為 $a_t$ 所產生的獎勵 $r_t$
但其實就算一個 trajectory 最終獎勵是高的，也不代表 trajectory 中的每個行為都是好的
而且在一個路徑中，時間點 t 後面的行為，理論上與時間點 t 前面獲得的獎勵
一般而言，行為的發生對未來獎勵產生的影響，是會隨著時間差距變大而影響變小的
這時候可以在計算 $\bar{R}_{\theta}$ 時，把每一項的路徑總獎勵 $R(\tau^n)$ ，換成是每一項所影響而產生的獎勵，並乘上一個與時間相關的衰退項
投影片中，橘紅色的框框是 Advantage Function $A^{\theta}$ ， $A^{\theta}$ 除了可以用上面提到的方法實現之外，也可以透過一個模型 (critic) 來實現。

參考:

关注