增强学习 | Q-Learning

最新推荐文章于 2023-07-27 10:14:28 发布

datashrimp

最新推荐文章于 2023-07-27 10:14:28 发布

阅读量528

点赞数

分类专栏：实战分析文章标签：强化学习机器学习人工智能算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/datashrimp/article/details/74781569

版权

“价值不是由一次成功决定的，而是在长期的进取中体现”

上文【增强学习 | 多臂赌博机模型进阶】介绍了描述能力更强的多臂赌博机模型，即通过多台机器的方式对环境变量建模，选择动作策略时考虑时序累积奖赏的影响。虽然多臂赌博机模型中引入了价值的概念，但方法在建模过程中本质上是以策略为优化目标，因此又常被归为基于策略的增强学习方法。

此外，增强学习方法还有基于价值以及基于模型两类主要方法。本文介绍第二类，先从描述价值目标的Q函数开始，它也常称之为Q-Learning方法。

最简单的Q函数可用“状态-动作”二维表（Q-Table）描述，其中行表示状态s，列表示动作a，矩阵中的值表示特定状态下执行某动作的回报值为r(s,a)。智能体Agent通过不断更新并查找该表，找到当前状态回报最高的动作执行。

为避免Q-Table陷入局部最优，即使得当前回报最高的结果能达到全局最优，需要通过训练获得累积回报，迭代更新Q-Table，使之能指导长期期望价值最大化的动作执行。

为便于计算，将Q-Table表示为Bellman递推等式，拆分为当前回报和未来最大回报的和，即Q(s,a)=r(s, a)+b(max(Q(s’,a’)))，其中s’表示s状态在a行为作用下的下一状态，而a’为s’状态后所有可能的行为，b为价值累积过程中的打折系数，决定了

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
增强学习 | Q-Learning

“价值不是由一次成功决定的，而是在长期的进取中体现”
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。