游戏领域也开始受到AI研究者的关注(比如最近的AI-Libratus战胜人类德州扑克高手[1], Alpha Go等),原因无他,很多人类发明的游戏,其过程涉及到逻辑推理,概率和游戏博弈等运算,研究者希望通过计算机来挑战/模拟一些原本认为只有人类才可完成的脑力运算能力。这里我们不探讨通过这种方式的尝试和创新,是否真正带来新的AI革命,我们希望通过探讨研究在用计算机解决游戏问题中遇到的一些通用问题进行一些讨论,并给出一些具有参考性的解决办法。
Exploration & Exploitation 问题,这类问题最简单的场景可以是,如果你搬到一个新的小区,小区周边有20多家小馆子可以选择(比如拉面,本地菜,西班牙菜,日本料理等), 如果你吃到自己喜欢料理那么你一天的心情将会+5(因为喜欢程度不同心情也会有不同), 如果你点的料理你并不喜欢,那么你的心情也会大受影响-5(根据不喜欢的程度,心情也会不同);假设点餐费用一样,你肯定希望每次点到的都是符合自己口味而且是自己最喜欢的食物,但是你对所有餐厅菜品和口味一无所知。如何平衡的选择餐馆和菜品?使自己能长久的有个好心情而且好心情值一直保持的很高
策略部分
最简单的策略,将是随机选择餐馆,随机选择菜品,直到选到自己最喜欢的,从那以后就一直点对应餐馆和菜品(这有点脱离现实,你会吃腻,但是这里有个问题,你并不知道最好的菜品能给你带来多少的最好心情,如何确保你在没有找到最好菜品前不停下随机选择?),这里我们称这种策略为随机选择 (Random strategy)
也有人建议我们按历史各家餐馆给我们带来好性情+坏心情的情况来选择,即期望,我们每次都选择期望最高的那家餐馆,直到这家餐馆充分的被咱们挖掘了,并且也吃腻了,心情开始下降,我们开始选择最新高的期望餐馆,当然这中策略也存在这一些问题,比如如何避提早的把一家较为喜欢的餐馆吃腻,因为如果在一家餐馆吃的普遍好,那么期望总是正向,直到你吃腻了,你猜可能换餐馆找到你最喜欢的菜品,这里我们称这种策略为贪婪选择(Greedy strategy), 这种策略和Gittin Index [2]有点相似
为了解决上面的问题,有部分学者建议,选择餐馆的问题,其实可以与你对这家餐馆的期望(历史品尝记录)成正比,这样你即可以有机会尝试市面上是否有你其他最喜欢的菜品,又可以较好的保持好心情
好了为了讨论以上三种策略在真实情景中的实用性,并且使结果具有通用参考意义,我们这里将借用经典问题案例 Multi-armed bandit [[3]], 在美国或日本的赌场,普遍都有老虎机(也叫 one-armed bandits), 假如一个赌徒走进一家有一排老虎机的赌场,赌徒知道每台老虎机有不同的出奖分布,如果赌徒想最大化他可能赢得钱,赌徒该如何选择机器?
让我们通过程序/算法来帮助赌徒简化问题,假设赌场有N=20台机器,假设每台机器可能产生的奖励 Ri∈[−10,