飞桨强化学习笔记

最新推荐文章于 2024-07-22 19:18:05 发布

柠檬味的芒果hj

最新推荐文章于 2024-07-22 19:18:05 发布

阅读量387

点赞数 1

文章标签： paddlepaddle python 人工智能

本文链接：https://blog.csdn.net/Othnial/article/details/121100539

版权

强化学习心得

课程链接https://aistudio.baidu.com/aistudio/course/introduce/1335
视频链接https://www.bilibili.com/video/BV1yv411i7xd?p=2&share_source=copy_web
内容来自哔哩哔哩科科老师的《世界冠军带你从零实践强化学习》百度飞桨学习课程

一. 数学基础

高等数学
线性代数（向量空间的变换思想）
概率与数理统计（期望，方差）
Python
神经网络

二. 强化学习

核心思想：智能体agent在环境environment中学习，根据环境的状态state，执行动作action，并根据环境的反馈reward（奖励）来指导更好地动作

RL（Reinforcement Learning)主要分为两部分：

agent智能体
environment环境
通过这两部分的交互产生经验，主要有三要素：

state状态
action动作
reward奖励
智能体根据环境state来执行动作，并且根据环境的反馈得到reward来指导更好的动作。
监督学习、非监督学习以及强化学习的侧重点
监督学习与强化学习区别
深度学习侧重于提取特征，通常用于分类问题。（是什么）
强化学习侧重于通过不断地试错，来找到最正确的方法或途径，通常用于抉择问题。（怎么做）

agent两种学习方案
基于价值的方法，当训练到一定程度，价值基本固定，输出的动作只会走到价值高的地方输出是固定的。
基于策略因为是输出的动作的概率，每次都要机会选择左右动作，因此最后的动作不是唯一固定的。

源码download
https://github.com/PaddlePaddle/PARL
推荐Download zip

用pycharm打开PARL的工程

找到example_tutorials_lesson1
打开lesson1，新建Python file，可命名为cliff_working。
代码如下

import gym
from gridworld import CliffWalkingWapper
import numpy as np
env = gym.make("CliffWalking-v0")#创建悬崖环境
env = CliffWalkingWapper(env)#产生可视化界面
observation = env.reset()
while True:

  action = np.random.randint(0,4) # your agent here (this takes random actions)
  observation, reward, done, info = env.step(action)
  env.render()
  '''if done:
    break'''