蘑菇书-第一章概述

下一个拐角%

已于 2022-07-13 12:08:12 修改

阅读量132

点赞数 1

分类专栏：强化学习文章标签： python 学习

于 2022-07-11 17:11:33 首次发布

本文链接：https://blog.csdn.net/qq_44430026/article/details/125716432

版权

强化学习专栏收录该内容

11 篇文章 2 订阅

订阅专栏

1.强化学习与监督学习的区别

监督学习

做图像识别：标注的图片都是满足独立同分布（建设样本空间中全体样本服从一个未知分布，获得的每个样本都是独立的从这个分布采样获得的。）。所以，输入的一大堆标注数据是没有关联的。消除数据的相关性，使训练稳定。

训练分类器时，会把真实标签给神经网络，当做真值。当网络作出一个错误预测时，例如将车预测成飞机，会立即得到反馈，直接告诉他预测是错误的，这个错误携程一个损失函数 loss function ，然后反向传播训练网络。

会提供正确动作的标签，反向传播训练

强化学习

agent 得到的观测值不是独立同分布的，上一阵和下一帧有非常强的连续性，得到的数据是相关的时间序列数据。数据都是有时间关联的。

不会立即得到反馈那个action 是正确或错误，只有当训练结束才可以知道 reward ，奖励延迟。

是 agent 探索和利用的过程。探索是试错，尝试新的action ，会得到不同的reward；利用一试错后已知可以获取最大奖励的行为。

对于动作采样，直到一个回合 episode或者试验 trial （一场游戏）结束，对每个 action 进行 reward 。

MDP 和 POMDP

区别在于状态 state 和观测 observation

1.状态s state 是对环境environments的完整描述，观测o observation 是对状态的部分描述。

2.Markov decision process(MDP)： agent 能够观察o 到环境的所有状态s：

用一个 5 元组描述： S表示状态空间，A为动作空间，T(s′∣s,a) 为状态转移概率，R 为奖励函数，γ 为折扣系数。

3.(Partially Observable Markov Decision Processes）, POMDP：

当 agent 只能看到部分的观测o。假设智能体无法感知环境的状态 s，只能知道部分观测值 o。

用一个 7 元组描述： S表示状态空间，为隐变量，A为动作空间，T(s′∣s,a) 为状态转移概率，R 为奖励函数，Ω(o∣s,a) 为观测概率，O 为观测空间，γ 为折扣系数。

值学习和策略学习

1.value-based ：显式的学习价值函数，隐式学习策略。策略是从学到的价值函数中推算出来

维护的是价值表格 Q-table 或价值函数 value function 。

应用于不连续的、离散的环境下。

2.policy -based ：直接学习 policy 策略，不会去学习值函数。直接给一个状态，输出动作概率。

动作策略（在给定状态下采取何种动作）

设定的策略选择连续的动作。

有模型和无模型

在智能体执行动作前，是否能对下一步的状态和奖励进行预测，如果可以，就能够对环境进行建模，从而采用有模型学习。

1.model-based：

一定程度上缓解训练数据匮乏的问题，智能体可以在虚拟世界（根据真实世界经验建立）中训练。限制了泛化性。

有模型学习可以在虚拟世界中预测出所有将要发生的事，并采取对自己最有利的策略。

2.model-free：

数据驱动型方法，需要大量的采样来估计状态、动作及奖励函数，从而优化动作策略。

智能体只能一步一步地采取策略，等待真实环境的反馈。

二、代码实践

import gym
import numpy as np

class BespokeAgent:
    def __init__(self, env):
        pass

    def decide(self, observation):
        position, velocity = observation
        lb = min(-0.09*(position + 0.25) ** 2 + 0.03,
                 0.03 * (position + 0.9) ** 4 - 0.008)
        ub = -0.07 * (position + 0.38) ** 2 + 0.07
        if lb < velocity < ub:
            action = 2
        else:
            action = 0
        return action

    def learn(self, *args):
        pass


env = gym.make('MountainCar-v0')
agent = BespokeAgent(env)


def play_montecarlo(env, agent, render=False, train =False):
    episode_reward = 0
    observation = env.reset()
    while True:
        if render:
            env.render()
        action = agent.decide(observation)
        next_observation, reward, done, _ = env.step(action)
        episode_reward += reward
        if train:
            agent.learn(observation, action, reward, done)
        if done:
            break
        observation = next_observation

    return episode_reward

env.seed(0)
episode_reward =[play_montecarlo(env, agent, render=True) for _ in range(100)]
print('回合奖励 = {}'.format(np.mean(episode_reward)))
env.close()