本文简单介绍下强化学习,然后介绍如何使用python实现强化学习。
强化学习,简单来说,就是智能体通过对环境做动作,得到对于环境的观察和奖励,把这些观察和奖励,放入一个策略函数,来决定下一次的动作。目标是最大化智能体的能力让其获得最大收益。
在强化学习种类中,model-based learning 越来越得到广泛的应用,对其分为:Policy iteration , value iteration。在Policy iteration中,又分为Deterministic Policy 和Stochastic Policy. Deterministic Policy, 是一个状态映射到一个行为,Stochastic policy ,是多个状态映射到多个行为。我们常常使用Stochastic policy,因为它可以explore各种可能的路径,而不是exploit 在一个路径中。
下面介绍一个例子,如何使用python编程实现model-based learning下的Stochastic policy,目标是让一个杆子在移动的时候保持平衡。
1. 安装相关包
pip install ale-py==0.7
pip install gym==0.19
pip install gym[atari]
pip install pyglet==1.5.21
pip install tensorflow==2.8.0
pip install ke