强化学习心得
课程链接https://aistudio.baidu.com/aistudio/course/introduce/1335
视频链接https://www.bilibili.com/video/BV1yv411i7xd?p=2&share_source=copy_web
内容来自哔哩哔哩科科老师的《世界冠军带你从零实践强化学习》百度飞桨学习课程
一. 数学基础
高等数学
线性代数(向量空间的变换思想)
概率与数理统计(期望,方差)
Python
神经网络
二. 强化学习
核心思想:智能体agent在环境environment中学习,根据环境的状态state,执行动作action,并根据环境的反馈reward(奖励)来指导更好地动作
RL(Reinforcement Learning)主要分为两部分:
agent智能体
environment环境
通过这两部分的交互产生经验,主要有三要素:
state状态
action动作
reward奖励
智能体根据环境state来执行动作,并且根据环境的反馈得到reward来指导更好的动作。
深度学习侧重于提取特征,通常用于分类问题。(是什么)
强化学习侧重于通过不断地试错,来找到最正确的方法或途径,通常用于抉择问题。(怎么做)
基于价值的方法,当训练到一定程度,价值基本固定,输出的动作只会走到价值高的地方输出是固定的。
基于策略因为是输出的动作的概率,每次都要机会选择左右动作,因此最后的动作不是唯一固定的。
源码download
https://github.com/PaddlePaddle/PARL
推荐Download zip
用pycharm打开PARL的工程
打开lesson1,新建Python file,可命名为cliff_working。
代码如下
import gym
from gridworld import CliffWalkingWapper
import numpy as np
env = gym.make("CliffWalking-v0")#创建悬崖环境
env = CliffWalkingWapper(env)#产生可视化界面
observation = env.reset()
while True:
action = np.random.randint(0,4) # your agent here (this takes random actions)
observation, reward, done, info = env.step(action)
env.render()
'''if done:
break'''