DQN tensorflow2 + OpenAI gym 实战

最新推荐文章于 2024-02-01 09:11:43 发布

super晓权

最新推荐文章于 2024-02-01 09:11:43 发布

阅读量1.2k

点赞数 2

分类专栏： Machine Learning 文章标签： tensorflow 神经网络强化学习

本文链接：https://blog.csdn.net/qq_38230811/article/details/120646146

版权

OpenAI gym

手动编环境是一件很耗时间的事情, 所以如果有能力使用别人已经编好的环境, 可以节约我们很多时间. OpenAI gym 就是这样一个模块, 他提供了我们很多优秀的模拟环境. 我们的各种强化学习算法都能使用这些环境.

CARTPOLE-V1 环境介绍

CartPole 是gym提供的一个基础的环境，即车杆游戏，游戏里面有一个小车，上有竖着一根杆子，每次重置后的初始状态会有所不同。小车需要左右移动来保持杆子竖直，为了保证游戏继续进行需要满足以下两个条件：

杆子倾斜的角度 \thetaθ 不能大于15°
小车移动的位置 x 需保持在一定范围（中间到两边各2.4个单位长度）

对于 CartPole-v1 环境，其动作是两个离散的动作左移（0）和右移（1），环境包括小车位置、小车速度、杆子夹角及角变化率四个变量。下面以CartPole-v1 环境为例，来介绍 DQN 的实现。

Q-Learning

在 Q-Learning 算法中，我们把这个长期奖励记为 Q 值，我们会考虑每个 ”状态s-动作a“ 的 Q 值，和动作a的回报R。具体而言，它的计算公式为

不过一般地，我们使用更为保守地更新 Q 表的方法，即引入松弛变量 alpha，按如下的公式进行更新，使得 Q 表的迭代变化更为平缓。

DQN

我们知道，神经网络的训练是一个最优化问题，最优化一个损失函数loss function，也就是标签和网络输出的偏差，目标是让损失函数最小化。为此，我们需要有样本，巨量的有标签数据，然后通过反向传播使用梯度下降的方法来更新神经网络的参数。

用Q-learning产生的数据来训练神经网络。实际Q值与目标Q值之差是神经网络优化的对象。

preview

这里的y_j 就是目标Q值。当然了，一开始没有数据，要吧Q-Learning过程中产生的数据的结果存储到一定程度再计算目标Q值，处理好数据送去训练。

总代码如下

import argparse
import os
import random

import numpy as np

import gym
import tensorflow as tf

parser = argparse.ArgumentParser()
parser.add_argument('--train', dest='train', default=True)
parser.add_argument('--test', dest='test', default=True)

parser.add_argument('--gamma', type=float, default=0.95)
parser.add_argument('--lr', type=float, default=0.005)
parser.add_argument(&

最低0.47元/天解锁文章

super晓权

关注

2
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
DQN tensorflow2 + OpenAI gym 实战

OpenAI gym手动编环境是一件很耗时间的事情, 所以如果有能力使用别人已经编好的环境, 可以节约我们很多时间. OpenAI gym 就是这样一个模块, 他提供了我们很多优秀的模拟环境. 我们的各种强化学习算法都能使用这些环境.CARTPOLE-V1 环境介绍CartPole 是gym提供的一个基础的环境，即车杆游戏，游戏里面有一个小车，上有竖着一根杆子，每次重置后的初始状态会有所不同。小车需要左右移动来保持杆子竖直，为了保证游戏继续进行需要满足以下两个条件：杆子倾斜的角度\th..
复制链接

扫一扫