深度学习入门问答

最新推荐文章于 2024-08-05 17:47:00 发布

qq_32851223

最新推荐文章于 2024-08-05 17:47:00 发布

阅读量84

点赞数

分类专栏：强化学习文章标签：深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_32851223/article/details/131845500

版权

强化学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

Q&A

Q1: 什么是Q_Learning?
Q2: Sarsa和Q_Learning的区别
Q2: Sarsa和 Sarsa（lambda）的区别
- A1: 直接看算法
- A2: 应用上的差别

Q1: 什么是Q_Learning?

A1: 核心概念

Q_Learning 顾名思义就是学习Q表，Q表指的是由状态空间S 和行动空间A形成的“笛卡尔积”表。对于每个状态s，每个行动a都对应着一个价值导向。其作用就是在和环境交互中学到Q表后对行动决策给予指导。

A2：应用范围

由前所述，Q表是个“笛卡尔积”，其中的状态空间和行动空间均为离散值。这也意味着计算机在存储、查找、修改数据时，数据范围不能过大。因此在状态空间较小的场景中应用是比较合适的。
Q表收敛的证明：大数定律，说的是独立同分布情况下，只要试验超过一定次数，肯定能找到分布的近似函数。对于Q表就是每个状态s下采取行动a的收益情况。
Q表收敛的条件：环境是稳定的，分布是确定的。

A3：怎么求

在这里插入图片描述
重点在于：

行动选择：基于概率，e贪心得到行动（不论行动A和行动B对应的差距多大，就是以一定的概率选择最好的行动）
更新Q表：用s‘状态下最大收益进行更新，最大收益对应的行动不一定是下一轮采取的行动

A4: 在强化学习中的分类

【是否基于模型】+ 【行动选择】 + 【更新频率】 + 【在线/离线】：model free + 基于概率 + 单步更新 + 离线学习

Q2: Sarsa和Q_Learning的区别

A1: 直接看算法

在这里插入图片描述
Sarsa敢做敢当，用行动A更新Q表，就采取行动A；Q_Learning“表里不一”，用行动A更新Q表，却不一定采取行动A。

A2: 在强化学习中的分类

【是否基于模型】+ 【行动选择】 + 【更新频率】 + 【在线/离线】：model free + 基于概率 + 单步更新 + 在线学习

A3: 应用上的差别

什么情况下用Sarsa更好，什么情况下Q_Learning更好？

收敛速度：Q_Learning更快？
策略：sarsa不是拿最好的收益更新Q表，就可能将失败的情况反馈回去，从而使得对于失败的恐惧，该路径的分值会低
怎么选？

Q2: Sarsa和 Sarsa（lambda）的区别

A1: 直接看算法

在这里插入图片描述

lambda = 1时，是回合更新；lambda = 0时，是单步更新
多了一个与Q表同样大小的E表，用于记录来时走过的路
更新Q表时，不再只更新s,a位置的奖励值，而是对所有状态，所有行动都进行遍历更新
至于更新哪些位置，是否需要进行刷新，则有不同的方法

A2: 应用上的差别

什么情况下用Sarsa更好，什么情况下Sarsa（lambda）更好？

收敛速度：Sarsa（lambda）找到一个好的策略后，则很快能加深对这个的偏好
策略：Sarsa（lambda）会不会陷入局部最优，跳不出去？
怎么选？

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
深度学习入门问答

Q_Learning 顾名思义就是学习Q表，Q表指的是由状态空间S 和行动空间A形成的“笛卡尔积”表。对于每个状态s，每个行动a都对应着一个价值导向。其作用就是在和环境交互中学到Q表后对行动决策给予指导。
复制链接

扫一扫

专栏目录

qq_32851223 CSDN认证博客专家 CSDN认证企业博客

码龄9年

5: 原创

180万+: 周排名

155万+: 总排名

2106: 访问

: 等级

52: 积分

0: 粉丝

1: 获赞

2: 评论

4: 收藏

私信

关注

热门文章

分类专栏

强化学习 1篇

最新评论

微软CyberBattleSim项目
竹川樱空释: 下面的奖励和步数的图没有放出来吧，得到这张图就是成功了嘛？
微软CyberBattleSim项目
CSDN-Ada助手: 恭喜作者持续创作，每一篇博客都能够带给读者不同的体验和思考。不过，标题是文章的门面，建议下一步可以在标题上下点功夫，让读者在第一时间就能够体会到文章的主旨，更加吸引人。期待作者的下一篇作品。 CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3，我们会奖励持续创作和学习的博主，请看：https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply3

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。