强化学习算法

最新推荐文章于 2023-12-22 10:50:25 发布

Pangxiaok

最新推荐文章于 2023-12-22 10:50:25 发布

阅读量718

点赞数

文章标签：强化学习

本文链接：https://blog.csdn.net/Pangxiaok/article/details/89448052

版权

1.关于强化学习算法的比较
深度强化学习进展: 从Alpha Go到Alpha Go Zero
深度强化学习进展_从AlphaGo到AlphaGo_Zero_唐振韬.caj
1.1离散与连续
1.1.1离散和连续是针对问题的，不是针对算法的。
在这里插入图片描述
连续有可能是温度，距离等。行动必须随着状态的变化而平滑变化，不能出现跳跃的情形。
1.1.2连续怎么解决
离散化：连续空间分解为有限的离散空间，通过表格形式一一对应存储状态值函数v(s)或状态-行动对值函数 Q(s,v(s))。
状态聚类，即以一定的标准或规则把若干连续的状态近似为一个
状态，将该状态下的决策控制应用于其近似状态中。泛化能力差、离散粒度难以控制
值函数逼近：逼近结构（如神经网络、Tile Code、树等）逼近表示状态值函数 v(s)或状态-行动对值函数 Q(s,v(s))，逼近结构的输入为状态、行动等变量，输出为相应值函数。
①首先将连续状态或行动转化为离散状态或行动，然后利用值函数逼近结构实现状态-行动 Q 值函数或状态值函数的表示。（结构比较简单，逼近结构的相关参数远远小于状态-行动或状态的个数，从而克服大规模系统中“维数灾”难题）
②利用逼近结构的输入可以为连续变量，直接实现状态-行动 Q 值函数或状态值函数的逼近表示，从而可以实现任意状态下的精确控制。
1.1.3 更新
通过智能主体和环境模型的反复交互，获得系统长期的奖惩折扣累积公式：其中γ（0<γ<1）为折扣因子

最低0.47元/天解锁文章

Pangxiaok

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
强化学习算法

1.关于强化学习算法的比较深度强化学习进展: 从Alpha Go到Alpha Go Zero深度强化学习进展_从AlphaGo到AlphaGo_Zero_唐振韬.caj1.1离散与连续1.1.1离散和连续是针对问题的，不是针对算法的。连续有可能是温度，距离等。行动必须随着状态的变化而平滑变化，不能出现跳跃的情形。1.1.2连续怎么解决离散化：连续空间分解为有限的离散空间，通过表格形...
复制链接

扫一扫