【王树森】深度强化学习(DRL)课程笔记:P1 基本概念(含gym安装)

课程信息

课程主讲:王树森(史蒂文斯理工学院计算机科学系的终身制助理教授)
课程内容:基本概念、价值学习、策略学习、Actor-Critic方法、AlphaGo、Monte Carlo (蒙特卡洛)
课程资料:https://github.com/wangshusen/DRL

下载链接:https://pan.baidu.com/s/1XpTgny_Vr0LobBsuYF4KkA 密码:x0wb

B站搬运地址:https://www.bilibili.com/video/BV12o4y197US

数学基础

概率

概率密度函数(Probability Density Function,PDF)
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

期望(Expectation)
在这里插入图片描述

基本概念

属性

agent:操作主体,智能体

state:几个状态

action:执行动作

police:执行策略
在这里插入图片描述

反馈

Reward
在这里插入图片描述
Value Function评估函数
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

玩游戏

AI的目的就是学习 π \pi π函数或者 Q Q Q函数
在这里插入图片描述

gym的安装

gym官方网站https://github.com/openai/gym
1.使用命令安装gym环境,安装所有环境

pip install gym[all] -i https://pypi.tuna.tsinghua.edu.cn/simple

2.使用如下代码进行测试

import gym
env = gym.make("LunarLander-v2", render_mode="human")
env.action_space.seed(42)

observation, info = env.reset(seed=42)

for _ in range(1000):
    observation, reward, terminated, truncated, info = env.step(env.action_space.sample())

    if terminated or truncated:
        observation, info = env.reset()

env.close()

总结

在这里插入图片描述
在这里插入图片描述

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

玛卡巴卡_qin

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值