李宏毅《Deep Learning》学习笔记 - 强化学习

0. 入门介绍

相关学习资料的传送门:PDF, Video

在强化学习中,常用的方法主要包括:value-based的方法和policy-based的方法。
value-based方法要早于policy-based方法,其中,value-based方法是为了训练一个critic,负责判断actor做的好不好。policy-based方法是为了训练一个actor,用于获得更好的结果。
在这里插入图片描述
在这里插入图片描述

1. Policy-based Approach

1.1 使用神经网络来训练Actor

在这里插入图片描述
这里,actor的输出是一个概率分布,这样,最终产生的动作是随机的(stochastic),这样,在很多场景下是非常好的,如玩游戏等,可以尽可能探索新的路径。

另外,使用network代替lookup table的好处是它的泛化性更好,即便是一幅没有见过的状态图像,也是可以有较合理的结果的。这就非常适合那种输入是不可穷举的场景了。

1.2 设计损失函数

在开始设计RL的损失函数之前,我们先来回归一下监督学习中的损失函数。
在这里插入图片描述
监督学习中常用的Loss function是cross entorpy loss。

在这里插入图片描述
RL中常用的损失函数是total reward的期望值,即:N轮 τ \tau τ对应reward的均值。

另外,即便同一个actor在玩游戏,产生的序列 τ \tau τ也是不一样的,原因是由于游戏的随机性,以及actor的随机性。
在这里插入图片描述
产生的不同序列 τ \tau τ的概率,计算方式如上。其中,只有与 θ \theta θ相关的,才受actor影响。

在这里插入图片描述
reward的期望值,可以用N轮 τ \tau τ对应reward的均值来代替。

1.3 优化算法

在这里插入图片描述
优化算法是梯度上升,因为我们希望reward的期望值越大越好。

问题的核心在于如何计算梯度?这里采用的是policy gradient
在这里插入图片描述
R θ R_{\theta} Rθ本身是不可微的,因为这里的 R θ R_{\theta} Rθ

  • 1
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值