强化学习蘑菇书学习笔记03

Kepler_K

已于 2022-07-20 20:05:59 修改

阅读量110

点赞数

分类专栏：蘑菇书学习笔记文章标签：学习算法深度学习

于 2022-07-19 22:30:14 首次发布

本文链接：https://blog.csdn.net/Kepler_K/article/details/125882180

版权

蘑菇书学习笔记专栏收录该内容

6 篇文章 1 订阅

订阅专栏

                    
                    第四章 策略梯度 
关键词 
policy（策略）： 每一个actor中会有对应的策略，这个策略决定了actor的行为。具体来说，Policy 就是给一个外界的输入，然后它会输出 actor 现在应该要执行的行为。一般地，我们将policy写成  
      
          π 
         
         π 
        
     π 。
Return（回报）： 一个回合（Episode）或者试验（Trial）所得到的所有的reward的总和，也被人们称为Total reward。一般地，我们用  
      
          R 
         
         R 
        
     R来表示它。
Trajectory： 一个试验中我们将environment 输出的 ss 跟 actor 输出的行为 aa，把这个 ss 跟 aa 全部串起来形成的集合，我们称为Trajectory，即
  
           T 
          
           r 
          
           a 
          
           j 
          
           e 
          
           c 
          
           t 
          
           o 
          
           r 
          
           y 
          
           τ 
          
           = 
          
             { 
            
              s 
             
              1 
             
             , 
            
              a 
             
              1 
             
             , 
            
              s 
             
              2 
             
             , 
            
              a 
             
              2 
             
             , 
            
             ⋯ 
             
             , 
            
              s 
             
              t 
             
             , 
            
              a 
             
              t 
             
             } 
            
            ∘ 
           
          Trajectory\enspace \tau =\left\{s_{1}, a_{1}, s_{2}, a_{2}, \cdots, s_{t}, a_{t}\right\}_{\circ} 
         
      Trajectoryτ={s1​,a1​,s2​,a2​,⋯,st​,at​}∘​
Reward function ： 根据在某一个 state 采取的某一个 action 决定说现在这个行为可以得到多少的分数，它是一个 function。也就是给一个 
      
           s 
          
           1 
          
         s_{1} 
        
     s1​, 
      
           a 
          
           1 
          
         a_{1} 
        
     a1​,它告诉你得到 
      
           r 
          
           1 
          
         r_{1} 
        
     r1​。给它 
      
           s 
          
           2 
          
         s_{2} 
        
     s2​, 
      
           a 
          
           2 
          
         a_{2} 
        
     a2​,它告诉你得到 
      
           r 
          
           2 
          
         r_{2} 
        
     r2​。把所有的  
      
          r 
         
         r 
        
     r 都加起来，我们就得到了  
      
          R 
         
          ( 
         
          τ 
         
          ) 
         
         R(\tau) 
        
     R(τ)，代表某一个 trajectory  
      
          τ 
         
         \tau 
        
     τ 的 reward。
Expected reward :  
      
            R 
           
            ˉ 
           
           θ 
          
          = 
         
           ∑ 
          
           τ 
          
          R 
         
          ( 
         
          τ 
         
          ) 
         
           p 
          
           θ 
          
          ( 
         
          τ 
         
          ) 
         
          = 
         
           E 
          
            τ 
           
            ∼ 
           
             p 
            
             θ 
            
            ( 
           
            τ 
           
            ) 
           
          [ 
         
          R 
         
          ( 
         
          τ 
         
          ) 
         
           ] 
          
           。  
          
         \bar{R}_{\theta}=\sum_{\tau} R(\tau) p_{\theta}(\tau)=E_{\tau \sim p_{\theta}(\tau)}[R(\tau)]_{\text {。 }} 
        
     Rˉθ​=∑τ​R(τ)pθ​(τ)=Eτ∼pθ​(τ)​[R(τ)]。 ​
REINFORCE： 基于策略梯度的强化学习的经典算法，其采用回合更新的模式。
 
第五章 近端策略优化算法 
关键词 
on-policy(同策略) ： 要learn的agent和环境互动的agent是同一个时，对应的policy。
off-policy(异策略) ： 要learn的agent和环境互动的agent不是同一个时，对应的policy。
important sampling（重要性采样）： 使用另外一种数据分布，来逼近所求分布的一种方法，在强化学习中通常和蒙特卡罗方法结合使用，公式如下：
  
           ∫ 
          
           f 
          
           ( 
          
           x 
          
           ) 
          
           p 
          
           ( 
          
           x 
          
           ) 
          
           d 
          
           x 
          
           = 
          
           ∫ 
          
           f 
          
           ( 
          
           x 
          
           ) 
          
             p 
            
             ( 
            
             x 
            
             ) 
            
             q 
            
             ( 
            
             x 
            
             ) 
            
           q 
          
           ( 
          
           x 
          
           ) 
          
           d 
          
           x 
          
           = 
          
            E 
           
             x 
            
             ∼ 
            
             q 
            
            [ 
           
            f 
           
            ( 
           
            x 
           
            ) 
           
              p 
             
              ( 
             
              x 
             
              ) 
             
              q 
             
              ( 
             
              x 
             
              ) 
             
            ] 
           
           = 
          
            E 
           
             x 
            
             ∼ 
            
             p 
            
           [ 
          
           f 
          
           ( 
          
           x 
          
           ) 
          
           ] 
          
          \int f(x) p(x) d x=\int f(x) \frac{p(x)}{q(x)} q(x) d x=E_{x \sim q}\left[f(x) \frac{p(x)}{q(x)}\right]=E_{x \sim p}[f(x)] 
         
      ∫f(x)p(x)dx=∫f(x)q(x)p(x)​q(x)dx=Ex∼q​[f(x)q(x)p(x)​]=Ex∼p​[f(x)]
 我们在已知  
      
          q 
         
         q 
        
     q 的分布后，可以使用上述公式计算出从  
      
          p 
         
         p 
        
     p 这个distribution sample x 代入  
      
          f 
         
         f 
        
     f 以后所算出来的期望值。
Proximal Policy Optimization (PPO) ： 避免在使用important sampling时由于在  
      
          θ 
         
         \theta 
        
     θ 下的 
      
           p 
          
           θ 
          
           ( 
          
            a 
           
            t 
           
           ∣ 
          
            s 
           
            t 
           
           ) 
          
         p_{\theta}\left(a_{t} \mid s_{t}\right) 
        
     pθ​(at​∣st​) 跟 在  
      
           θ 
          
           ′ 
          
         \theta^{\prime} 
        
     θ′ 下的  
      
           p 
          
            θ 
           
            ′ 
           
           ( 
          
            a 
           
            t 
           
           ∣ 
          
            s 
           
            t 
           
           ) 
          
         p_{\theta^{\prime}}\left(a_{t} \mid s_{t}\right) 
        
     pθ′​(at​∣st​)差太多，导致important sampling结果偏差较大而采取的算法。具体来说就是在training的过程中增加一个constrain，这个constrain对应着  
      
          θ 
         
         \theta 
        
     θ 跟  
      
           θ 
          
           ′ 
          
         \theta^{\prime} 
        
     θ′ output 的 action 的 KL divergence，来衡量 
      
          θ 
         
         \theta 
        
     θ 跟  
      
           θ 
          
           ′ 
          
         \theta^{\prime} 
        
     θ′ 的相似程度。