强化学习算法

1.关于强化学习算法的比较
深度强化学习进展: 从Alpha Go到Alpha Go Zero
深度强化学习进展_从AlphaGo到AlphaGo_Zero_唐振韬.caj
1.1离散与连续
1.1.1离散和连续是针对问题的,不是针对算法的。
在这里插入图片描述
连续有可能是温度,距离等。行动必须随着状态的变化而平滑变化,不能出现跳跃的情形。
1.1.2连续怎么解决
离散化:连续空间分解为有限的离散空间,通过表格形式一一对应存储状态值函数v(s)或状态-行动对值函数 Q(s,v(s))。
状态聚类 ,即以一定的标准或规则把若干连续的状态近似为一个
状态,将该状态下的决策控制应用于其近似状态中。泛化能力差、离散粒度难以控制
值函数逼近:逼近结构(如神经网络、Tile Code、树等)逼近表示状态值函数 v(s)或状态-行动对值函数 Q(s,v(s)),逼近结构的输入为状态、行动等变量,输出为相应值函数。
①首先将连续状态或行动转化为离散状态或行动,然后利用值函数逼近结构实现状态-行动 Q 值函数或状态值函数 的表示。(结构比较简单,逼近结构的相关参数远远小于状态-行动或状态的个数,从而克服大规模系统中“维数灾”难题)
②利用逼近结构的输入可以为连续变量,直接实现状态-行动 Q 值函数或状态值函数的逼近表示,从而可以实现任意状态下的精确控制。
1.1.3 更新
通过智能主体和环境模型的反复交互,获得系统长期的奖惩折扣累积公式:其中γ(0<γ<1)为折扣因子

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值