强化学习自学总结

看了这么多遍强化学习相关的内容了,感觉一直看不懂。。先总结一下自己浅薄的认识吧。不足之处希望评论区指正。

首先是强化学习的一些基本概念:

给定状态空间S,行动空间A,该步对应的回报R(S,A,S')

状态值函数V指的是从该状态S出发所有可能的累积回报求期望;

同样还有状态动作值函数Q,是把该转移步骤A确定了然后加上下一个步骤的状态值函数V(S')

强化学习算法分类

转移概率是否已知:就是现实环境是不是一个白盒模型,有白盒模型当然简单,无白盒模型就是采样,基本上是蒙特卡洛算法--蒙特卡洛就是采样空间的概率用频率来近似估算。

离散型动作空间——动作空间可以枚举,如围棋

连续型动作空间——如机器人手臂运动,使用神经网络来拟合。

策略/值函数:策略迭代是反复迭代状态和策略,贪心的角度选取最佳策略,使得值函数和策略都稳定

值函数:值迭代的理论基础是最优性原则Principle of Optimality。这个原则告诉我们当且仅当策略π下每次选择下一个状态时都是按照动作Q值最大原则选择的,那么π就是一个状态上的最优策略。这一句一直没有理解。。。所以这个策略并不需要迭代,等值函数稳定下来,直接贪心回溯就好了?

所谓策略梯度算法,其实就是当值空间很庞大但是策略空间相对小的时候从策略端去优化。这里又涉及到对期望求梯度了吗。。想到了变分算法。

Actor-critic 貌似是最新最常用的强化学习算法,和GAN的算法类似,都有一个生成对抗的过程。

其实下面的我都不太懂了。。随手摘抄

  • 2
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值