【王树森】深度强化学习(DRL)课程笔记：P1 基本概念（含gym安装）

最新推荐文章于 2024-01-30 13:12:34 发布

玛卡巴卡_qin

最新推荐文章于 2024-01-30 13:12:34 发布

阅读量454

点赞数

分类专栏：强化学习文章标签：笔记

本文链接：https://blog.csdn.net/qin_liang/article/details/132167960

版权

强化学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

课程信息

课程主讲：王树森（史蒂文斯理工学院计算机科学系的终身制助理教授）
课程内容：基本概念、价值学习、策略学习、Actor-Critic方法、AlphaGo、Monte Carlo (蒙特卡洛)
课程资料：https://github.com/wangshusen/DRL

下载链接：https://pan.baidu.com/s/1XpTgny_Vr0LobBsuYF4KkA 密码:x0wb

B站搬运地址：https://www.bilibili.com/video/BV12o4y197US

数学基础

概率

概率密度函数（Probability Density Function,PDF）
在这里插入图片描述

期望（Expectation）
在这里插入图片描述

基本概念

属性

agent：操作主体，智能体

state：几个状态

action:执行动作

police:执行策略
在这里插入图片描述

反馈

Reward
在这里插入图片描述
Value Function评估函数

玩游戏

AI的目的就是学习 $\pi$ 函数或者 $Q$ 函数
在这里插入图片描述

gym的安装

gym官方网站：https://github.com/openai/gym
1.使用命令安装gym环境，安装所有环境

pip install gym[all] -i https://pypi.tuna.tsinghua.edu.cn/simple

2.使用如下代码进行测试

import gym
env = gym.make("LunarLander-v2", render_mode="human")
env.action_space.seed(42)

observation, info = env.reset(seed=42)

for _ in range(1000):
    observation, reward, terminated, truncated, info = env.step(env.action_space.sample())

    if terminated or truncated:
        observation, info = env.reset()

env.close()

总结

在这里插入图片描述

玛卡巴卡_qin

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
【王树森】深度强化学习(DRL)课程笔记：P1 基本概念（含gym安装）

课程主讲：王树森（史蒂文斯理工学院计算机科学系的终身制助理教授）课程内容：基本概念、价值学习、策略学习、Actor-Critic方法、AlphaGo、Monte Carlo (蒙特卡洛)课程资料：https://github.com/wangshusen/DRL下载链接：https://pan.baidu.com/s/1XpTgny_Vr0LobBsuYF4KkA 密码:x0wbB站搬运地址：https://www.bilibili.com/video/BV12o4y197US概率密度函数（Probab
复制链接

扫一扫