一、模型描述
强化学习问题,应先考虑简单场景:最大化单步奖赏,即仅考虑一步操作。
单步强化学习对应了一个理论模型:K摇臂博彩机(K-armed Bandit)也称为K摇臂老虎机,也称为多摇臂博彩机问题(Multi-Armed Bandit Problem,MABP)。
场景描述:章鱼(赌徒) 选择一个博彩机后,投入硬币并按下摇臂,这台博彩机会以一定概率吐出硬币,但章鱼(赌徒)并不知道这个概率,他的目标是通过一定的策略最大优化自己的奖赏,即获得最多的硬币。
仅探索(Exploration-Only)将所有的尝试机会平均分配给每台老虎机(即轮流按下每个摇臂),最后以每个摇臂老虎机各自的平均吐币概率作为期望奖赏的近似估计,可以很好的估计每个摇臂老虎机的奖赏&#