【笔记2-2】李宏毅深度强化学习笔记(二)Proximal Policy Optimization (PPO)

李宏毅深度强化学习课程 https://www.bilibili.com/video/av24724071

李宏毅深度强化学习笔记(一)Outline
李宏毅深度强化学习笔记(三)Q-Learning
李宏毅深度强化学习笔记(四)Actor-Critic
李宏毅深度强化学习笔记(五)Sparse Reward
李宏毅深度强化学习笔记(六)Imitation Learning
李宏毅深度强化学习课件

Policy Gradient

术语和基本思想

基本组成:

  1. actor (即policy gradient要学习的对象, 是我们可以控制的部分)
  2. 环境 environment (给定的,无法控制)
  3. 回报函数 reward function (无法控制)

Policy of actor π \pi π:
如下图所示,Policy 可以理解为一个包含参数 θ \theta θ的神经网络,该网络将观察到的变量作为模型的输入,基于概率输出对应的行动action
example of policy
Episode:
游戏从开始到结束的一个完整的回合

actor的目标:
最大化总收益reward

Trajectory τ \tau τ:
行动action和状态state的序列

给定神经网络参数 θ \theta θ的情况下,出现行动状态序列 τ \tau τ的概率:
以下概率的乘积:初始状态出现的概率;给定当前状态,采取某一个行动的概率;以及采取该行动之后,基于该行动以及当前状态返回下一个状态的概率,用公式表示为:
probability of \tau
给定一个行动状态序列 τ \tau τ, 我们可以得到它对应的收益reward,通过控制actor,我们可以得到不同的收益。由于actor采取的行动以及给定环境下出现某一个状态state是随机的,最终的目标是找到一个具有最大期望收益(即下述公式)的actor。

累积期望收益:采取某一个行动状态序列 τ \tau τ的概率, 以及该行动状态序列对应的收益reward的乘积之和。
expected reward

Policy Gradient

得出目标函数之后,就需要根据目标函数求解目标函数最大值以及最大值对应的policy的参数 θ \theta θ。类比深度学习中的梯度下降求最小值的方法,由于我们这里需要求的是目标函数的最大值࿰

评论 17
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值