蒙特卡洛树搜索方法介绍——算力聚焦方法(一) Dyna-Q+

引言

上一节基于规划学习的差异性介绍了 D y n a − Q Dyna-Q DynaQ架构的具体算法过程。但从真实环境的角度观察, D y n a − Q Dyna-Q DynaQ架构同样存在各种问题,本节从 D y n a − Q Dyna-Q DynaQ架构的问题出发,介绍算力聚焦的本质具体的算力聚焦方法

回顾:Dyna-Q角度观察规划与学习的结合过程

D y n a − Q Dyna-Q DynaQ角度观察规划与学习的结合过程:

  • 学习过程 中,结合非终结状态 S t S_t St和对应在 Q − T a b l e Q-Table QTable中的 Q ( S t , a ) ( a ∈ A ( S t ) ) Q(S_t,a)(a \in \mathcal A(S_t)) Q(St,a)(aA(St)),构建一个基于 ϵ − \epsilon- ϵ贪心方法的策略 π \pi π
  • 从策略 π \pi π中选择一个动作—— A t A_t At
  • 执行动作 A t A_t At,通过状态转移过程,得到一组真实样本—— S t + 1 , R t + 1 S_{t+1},R_{t+1} St+1,Rt+1;

将上述过程称为 产生真实经验(Real Experience)。其原因在于 S t + 1 , R t + 1 S_{t+1},R_{t+1} St+1,Rt+1真实样本,生成该样本的模型是 真实的环境模型——这个模型我们是未知的。

  • 使用 Q − L e a r n i n g Q-Learning QLearning方法对 Q − T a b l e Q-Table QTable进行更新:
    Q ( S t , A t ) ← Q ( S t , A t ) + α [ R t + 1 + γ max ⁡ a Q ( S t + 1 , a ) − Q ( S t , A t ) ] Q(S_t,A_t) \gets Q(S_t,A_t) + \alpha [R_{t+1} + \gamma \mathop{\max}\limits_{a} Q(S_{t+1},a) - Q(S_t,A_t)] Q(St,A
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

静静的喝酒

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值