李宏毅机器学习（30）

最新推荐文章于 2022-03-15 22:17:16 发布

Baigker

最新推荐文章于 2022-03-15 22:17:16 发布

阅读量219

点赞数

分类专栏：李宏毅机器学习课程笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Baigker/article/details/119839550

版权

本文详细介绍了Q-Learning的基本概念，包括Critic的评价方法、Q-learning的算法执行过程，以及一系列优化技巧，如Target Network、Exploration、Replay Buffer、Double DQN、Dueling DQN等。此外，还探讨了在连续动作空间中的Q-learning策略，如Actor+Critic方法和Pathwise derivative policy gradient。

摘要由CSDN通过智能技术生成

Q-Learing

Critic

相比于Policy，Critics的评价方法很不一样：他有一个状态评价函数 $V^π$ ，输入是Environment的一个状态State，然后根据Actor也就是 $π$ 的情况，输出从当前这个状态开始到结束，一共能获得多少期望的Reward，记为 $V^π(s)$ 。
比如打砖块时， $V^π$ 会输出从现在到结束大概能得多少分。
比如下围棋， $V^π$ 会输出现在的局势下双方胜率是多少。
在这里插入图片描述

那么，如何做这个 $V^π$ 呢？一般有两种办法。

第一种，蒙特卡洛法。先观察 $π$ 玩很多次游戏。然后看到一个state后将结果尽量向某一局游戏结果贴合。
在这里插入图片描述
第二种，时序查分算法。我们只需要知道从状态 $s_a$ 到状态 $s_b$ 需要做Action $a$ ，获得Reward $r$ 。那我们就可以训练一个Network，让

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
李宏毅机器学习（30）

Q-LearingCritic相比于Policy，Critics的评价方法很不一样：他有一个状态评价函数VπV^πVπ，输入是Environment的一个状态State，然后根据Actor也就是πππ的情况，输出从当前这个状态开始到结束，一共能获得多少期望的Reward，记为Vπ(s)V^π(s)Vπ(s)。比如打砖块时，VπV^πVπ会输出从现在到结束大概能得多少分。比如下围棋，VπV^πVπ会输出现在的局势下双方胜率是多少。那么，如何做这个VπV^πVπ呢？一般有两种办法。第一种，蒙特卡
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。