飞桨强化学习笔记

强化学习心得

课程链接https://aistudio.baidu.com/aistudio/course/introduce/1335
视频链接https://www.bilibili.com/video/BV1yv411i7xd?p=2&share_source=copy_web
内容来自哔哩哔哩科科老师的《世界冠军带你从零实践强化学习》百度飞桨学习课程

一. 数学基础

高等数学
线性代数(向量空间的变换思想)
概率与数理统计(期望,方差)
Python
神经网络

二. 强化学习

核心思想:智能体agent在环境environment中学习,根据环境的状态state,执行动作action,并根据环境的反馈reward(奖励)来指导更好地动作

RL(Reinforcement Learning)主要分为两部分:

agent智能体
environment环境
通过这两部分的交互产生经验,主要有三要素:

state状态
action动作
reward奖励
智能体根据环境state来执行动作,并且根据环境的反馈得到reward来指导更好的动作。
监督学习、非监督学习以及强化学习的侧重点
监督学习与强化学习区别
深度学习侧重于提取特征,通常用于分类问题。(是什么)
强化学习侧重于通过不断地试错,来找到最正确的方法或途径,通常用于抉择问题。(怎么做)

agent两种学习方案
基于价值的方法,当训练到一定程度,价值基本固定,输出的动作只会走到价值高的地方输出是固定的。
基于策略因为是输出的动作的概率,每次都要机会选择左右动作,因此最后的动作不是唯一固定的。

源码download
https://github.com/PaddlePaddle/PARL
推荐Download zip

用pycharm打开PARL的工程

找到example_tutorials_lesson1
打开lesson1,新建Python file,可命名为cliff_working。
代码如下

import gym
from gridworld import CliffWalkingWapper
import numpy as np
env = gym.make("CliffWalking-v0")#创建悬崖环境
env = CliffWalkingWapper(env)#产生可视化界面
observation = env.reset()
while True:

  action = np.random.randint(0,4) # your agent here (this takes random actions)
  observation, reward, done, info = env.step(action)
  env.render()
  '''if done:
    break'''

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值