重温强化学习之函数近似

1、简介

    之前提到的方法目的是求值函数,通过值函数找打策略

    基于表格的方法:

        

     基于表格方法精确的描述每一个动作和状态的大小,表格大小会随着状态数量和动作数量快速膨胀,对于表格中某一项的更新不会影响到其它项的更新

强化学习能够用来解决大规模的问题,例如围棋:256像素点数幂

之前使用表格来表示值函数

              

在大规模MDPs中会存在需要在内存空间中存储大量的状态或动作,学习比较缓慢

解决大规模MDPs的方法,使用函数近似的方法:

                                   

从已经经历过的状态推广到未见的状态,可以使用MC或者TD更新参数W

值函数近似的类型:

                        

第三个,输入状态可以无限,但是动作有限m,这样做的好处是算出a1,...am个Q值即可用贪婪算法找出最优动作

函数近似器:

考虑可微的函数近似器:

比如:

        线性模型

        神经网络

        。。。

 

2、增量算法

     梯度算法

            梯度下降:

                           

 

        值函数近似和随机梯度下降

                                               

     线性函数近似

             特征向量:

                                  

             线性值函数近似:

                                  

            表格检索特征:                                      

                            

 

     值函数近似下的增量式评价算法

      增量式评价算法:前面是假设给定了真实的值函数,但是在RL环境中,并不知道真实的值函数,只有奖励值。直观地,用目标值代替值函数

                       

     值函数近似下的MC:

                                 

    值函数近似下的TD

                                            

    值函数近似下的TD(lambda)

                                     

     值函数近似下的增量式优化算法

            策略迭代:

                         

                            

                            

            对Q函数的近似:

                          

             线性Q函数的近似

                                  

       增量式策略优化算法:

                                    

3、收敛性简介

        策略评价时的收敛问题:

                              

                               

策略优化算法的收敛性:

                              

 

  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值