(RL强化学习)强化学习基础知识

Basic Components

  • 以Video Game为例

    • Actor:遥杆

    • Env:游戏界面

    • Reward Function:杀一个怪得20分

在这里插入图片描述

Actor

  • 一个神经网络

  • 输入游戏画面 输出action
    在这里插入图片描述

Critic

  • 给定一个actor的一个observation

  • Critic给出从现在到结束的reward的概率

  • Critic衡量Actor的好坏 但不决定action

  • example:打怪游戏:当当前的observation里面还很多怪 那给出的reward 概率就会高

    当当前的observation剩一点点怪 那么reward就低 因为到游戏结束也不会获得很高的分数
    在这里插入图片描述

    网络训练

    • MC

      • 给定一个state 得到这个state开始到游戏结束的reward G
      • 然后将这个state输入到Vπ 得到的值跟G越接近越好
        在这里插入图片描述
    • TD

      • 给定相邻的两个state分别送进去网络
      • 得到的差值越接近这个state后actor的得到的reward越好
        在这里插入图片描述

    Q-learning

    • Q function

      • 给定state 和 action

      • 给出这个state采取这个action的reward

      • 只适用于离散的action

在这里插入图片描述

  • 迭代过程

    • 给定一个actor π

    • 给出 state action 算出Q-value

    • 通过TD/MC更新Q function

    • 得到一个更好的actor π1

    • π1替换π
      在这里插入图片描述

Actor + Critic

  • 仅仅actor会根据当前observation得到一个reward 但这样子做随机性会很大
  • 故提出AC Critic指导Actor的行动

A2C Advantage Actor-Critic

在这里插入图片描述

A3C Asynchtonous Advantage Actor-Critic

  • 有一个global actor 和 critic
  • 建立一些分身进行跟环境互动 平行运算
  • 反馈参数到global

在这里插入图片描述

Back propagation

  • 为了maximize R(涛) 需要反向传播到Reward,Env ,Actor
  • 但是Reward,Env并不是网络
  • 所以需要用Policy Gradient去实现反向传播
    在这里插入图片描述

Inverse RL

  • 很多时候并不知道reward function
  • 需要一个跟环境互动过的专家Expert反推 reward function
  • 使用reward function 找到最好的Actor

在这里插入图片描述

  • 具体流程
    在这里插入图片描述
    在这里插入图片描述

Policy Gradient

Policy

  • 输入一个代表observation的矩阵或者向量

  • 输出端每一个action对应输出层的一个神经元
    在这里插入图片描述

Example

  • Actor 得到 S1 放入 Policy
  • 得到概率最高的action a1
  • 采取action后获得这个action的reward r1

在这里插入图片描述

  • 一直循环直到游戏结束 整个过程称为一个episode 所有reward的总和称为total reward

  • Actor的目的就是让total reward最大化
    在这里插入图片描述

  • (s1,a1,s2,a2…)的集合称为trajectory

  • 可以计算这个trajectory的概率
    在这里插入图片描述

  • Expected Reward

    • sample 一个 trajectory 乘上这个trajectory的total reward

    • sample所有的trajectory 并以total reward为权值加权起来就是 Expected Reward
      在这里插入图片描述

    Gradient

  • 目标是maximinze Expected Reward

  • gradient计算公式
    在这里插入图片描述

  • 具体流程
    在这里插入图片描述

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值