72、深度强化学习中的策略梯度与蒙特卡罗树搜索方法解析

深度强化学习中的策略梯度与蒙特卡罗树搜索方法解析

1. 策略梯度方法概述

在强化学习里,策略梯度方法有着独特的优势。在单个游戏中,对特定状态影响更大的行动会获得更高的优势评估,这样一来,学习所需的游戏次数就会减少。

2. 监督学习与策略梯度的结合

监督学习在应用强化学习之前,对初始化策略网络的权重很有帮助。以国际象棋为例,我们可能有一些已知的专家走法范例。这时,我们可以对同一个策略网络执行梯度上升操作,不过要根据公式 11.25 为每个专家走法赋予固定的信用值 1 来评估梯度。这就相当于软最大分类问题,策略网络的目标是预测出和专家相同的走法。我们还可以通过计算机评估得到一些带有负信用值的坏走法范例,以此提升训练数据的质量。这种方法属于监督学习而非强化学习,因为我们只是使用了先验数据,并非像常见的强化学习那样生成或模拟学习所需的数据。这种通用思路可以推广到任何有行动和相关奖励先验范例的强化学习场景中。由于在过程早期获取高质量数据存在困难,监督学习在这些场景的初始化阶段极为常见。许多已发表的研究还会交替使用监督学习和强化学习,以提高数据效率。

3. 演员 - 评论家方法

目前讨论的方法可分为以评论家为主导和以演员为主导两类:
- 仅评论家方法 :Q 学习和 TD(λ) 方法基于优化价值函数的概念。这个价值函数就是评论家,演员的策略(如 ε - 贪心策略)直接从这个评论家推导得出,所以这类方法被视为仅评论家方法。
- 仅演员方法 :策略梯度方法直接学习策略行动的概率,通常使用蒙特卡罗采样来估计各种行动的优势,因此被视为仅演员方法。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值