Exploration and Exploitation - 探索和利用

最新推荐文章于 2024-04-14 00:09:44 发布

从流域到海域

最新推荐文章于 2024-04-14 00:09:44 发布

阅读量2.5k

点赞数

分类专栏：强化学习文章标签：强化学习 Exploration Exploitation

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Solo95/article/details/100151945

版权

强化学习专栏收录该内容

26 篇文章 61 订阅

订阅专栏

Exploration and Exploitation(探索和利用)是强化学习需要去平衡的一个点，即我应该去探索新的选项还是充分利用我已经有的选项以取得最大收益(博主注)，它是强化学习一个非常重要的点，而且是非常依赖领域的，比如针对顾客、学生、患者等，不同的领域探索和利用的侧重会有所不同。

Exploration and Exploitation

Agent只能体会到它尝试的那些动作，这明显会产生一个进退两难的窘境。

因为Agent必须在基于先前经验看起来是好的事情(Exploitation)和未来可能会是好的事情之间做权衡(Exploration)。

强化学习Agent应该如何平衡它的动作？

Exploration(探索)：尝试可能能够使得agent在未来做出更好决策的新事物。
Exploitation(利用)：给定过去的经验选择能期望产生好的回报的动作。

通常会有一个exploration-exploitation的权衡：
可能不得不牺牲奖励以以便去探索和学习潜在的更好的策略。

Evaluation和control

评估

估计/预测一个给定策略的奖励期望。

在强化学习中，我们可以脱离策略实现对它的评估。这意味着我们可以使用从其他策略收集到的数据来评估一些反直觉的不同的策略会怎样做。这非常有用，因为我们不需要以测试的方式穷尽所有的策略。

控制

最优化：找到最佳的策略。

从流域到海域

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。