Introduction
你在镇上有一个最喜欢的咖啡馆吗? 当你想喝咖啡时,你可能会去这个地方,因为你几乎可以肯定你会得到最好的咖啡。 但这意味着你错过了这个地方的跨城镇竞争对手所提供的咖啡。
如果你一个接一个地尝试所有咖啡的地方,品尝你生活中更糟糕的咖啡的可能性会非常高! 但话说回来,你有可能找到一个更好的咖啡酿造者。 但是所有这些与强化学习有什么关系呢?
我很高兴你问。
我们的咖啡品尝实验中的困境源于不完整的信息。换句话说,我们需要收集足够的信息来制定最佳的整体战略,然后探索新的行动。这最终将最大限度地减少整体糟糕的体验。
多臂强盗是这种类比的简化形式。它用于表示类似的问题,找到解决它们的好策略已经帮助了很多行业。
在本文中,我们将首先了解实际上是多臂强盗问题,它是现实世界中的各种用例,然后探讨如何解决它的一些策略。然后,我将向您展示如何使用点击率优化数据集在Python中解决此挑战。
目录
- 什么是多臂强盗问题?
- 用例
- 解决方案策略
- 没有探索