python强化学习实战

数据算法小屋

已于 2022-11-25 18:56:30 修改

阅读量2.8k

点赞数 2

文章标签： python 深度学习算法

于 2022-11-25 18:47:37 首次发布

本文链接：https://blog.csdn.net/TommyLi_YanLi/article/details/128042777

版权

本文简单介绍下强化学习，然后介绍如何使用python实现强化学习。

强化学习，简单来说，就是智能体通过对环境做动作，得到对于环境的观察和奖励，把这些观察和奖励，放入一个策略函数，来决定下一次的动作。目标是最大化智能体的能力让其获得最大收益。

在强化学习种类中，model-based learning 越来越得到广泛的应用，对其分为：Policy iteration , value iteration。在Policy iteration中，又分为Deterministic Policy 和Stochastic Policy. Deterministic Policy, 是一个状态映射到一个行为，Stochastic policy ，是多个状态映射到多个行为。我们常常使用Stochastic policy，因为它可以explore各种可能的路径，而不是exploit 在一个路径中。

下面介绍一个例子，如何使用python编程实现model-based learning下的Stochastic policy，目标是让一个杆子在移动的时候保持平衡。

1. 安装相关包

pip install ale-py==0.7

pip install gym==0.19

pip install gym[atari]

pip install pyglet==1.5.21

pip install tensorflow==2.8.0

pip install ke

最低0.47元/天解锁文章

数据算法小屋

关注

2
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
python强化学习实战

本文简单介绍下强化学习，然后介绍如何使用python实现强化学习。强化学习，简单来说，就是智能体通过对环境做动作，得到对于环境的观察和奖励，把这些观察和奖励，放入一个策略函数，来决定下一次的动作。目标是最大化智能体的能力让其获得最大收益
复制链接

扫一扫