![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
强化学习
Judy18
这个作者很懒,什么都没留下…
展开
-
Tensorflow2.x下如何运行1.x的代码
Tensorflow2.x下如何运行1.x的代码原创 2022-06-29 22:10:42 · 523 阅读 · 0 评论 -
【强化学习】策略梯度(Policy Gradient)
策略梯度基本知识强化学习主要分为两类:基于价值的(如Sarsa、Q-Learning 和 DQN 算法),先计算每个状态对应的动作的 Q 值,再选择 Q 值最大的动作执行。 基于策略的:直接计算每个状态对应的动作或者动作的概率。Policy Gradient 算法就是对策略函数进行建模,然后用梯度下降更新网络的参数。但是在强化学习中并没有实际的损失函数,而 PG 算法的目的是最大化累计奖励的期望值,因此将累计奖励的期望值作为损失函数,使用梯度上升算法来进行计算。策略梯度公式每一个..原创 2021-11-15 21:21:52 · 6030 阅读 · 1 评论 -
强化学习之OpenAI Gym环境
OpenAI Gym 是一个最广泛使用的强化学习实验环境,内置上百种实验环境,比如一些简单几何体的运动,一些用文本表示的简单游戏,或者机械臂的抓取和控制等实验环境。安装Gym后,一般的使用流程是:1. 加载 gym 库:import gym2. 进入指定的实验环境:env = gym.make('Taxi-v2') //env = gym.make('CartPole-v0') //cartpole游戏3. 渲染环境,即可视化看看环境的样子:env.render(转载 2021-10-12 20:25:36 · 568 阅读 · 0 评论