16.强化学习
16.1任务与奖赏
强化学习(reinforcementlearning)的过程就是机器通过一系列的动作和环境交互,从而得到最佳的动作序列。图示:
强化学习任务用马尔可夫决策(Markov Decision Process,MDP)描述:机器处于环境E中,状态空间为X,其中每个状态x∈X是机器感知到的环境的描述;机器能采取的动作构成了动作空间A,若某个动作a∈A作用在当前状态x上,则潜在的转移函数P将使得环境从当前状态按某种概率转移到另一个状态;在转移到另一个状态的同时,环境会根据潜在的奖赏(reward)函数R反馈给机器一个奖赏。综合起来,强化学习任务对应了一个四元组E=<X,A,P,R>,其中P:X*A*X->R指定了状态转移概率;R:X*A*X->R指定了奖赏;在有的应用中,奖赏函数可能仅与状态转移有关,即R:X*X->R。
按照上面的形式化描述,就是给定状态转移概率P和奖赏R,机器通过动作空间A感知环境返回的状态空间X。文中给的西瓜例子可以配合理解。机器指的是学习程序,而环境则面对不同任务是不同,如在下棋对弈中,环境是棋盘与对手;在种西瓜任务中,环境是西瓜生长的自然世界。在环境中状态的转移、奖赏的返回时不受机器(程序)控制的,机器只能通过选择要执行的动作来影响环境,也只能通过观察转移后的状态和返回的奖赏来感知环境。
机器人下棋就是强化学习的表现。若将强化学习中的状态对应于监督学习中的示例,而动作对应于标记,则可看出,强化学习中的策略相当于监督学习中的分类器(当动作是离散的)或回归器(当动作是连续的),模型的形式并无差别。不同的是,在强化学习中并没有监督学习中的有标记样本(即示例-标记对),换言之,没有人直接告诉机器在什么状态下应该做什么动作,只有等到最终结果揭晓,才能通过反思之前的动作是否正确来进行学习。因此,强化学习在某种意义上可以看作具有延迟标记信息的监督学习问题。
实际上,个人感觉学习就是一个感知过程,监督学习有标记和强化学习根据最终结论来感知动作是否合适是一样的。
16.2K-摇臂赌博机
与一般监督学习不同,强化学习任务的最终奖赏要在多步动作之后才能观察到,那能否最大化单步奖赏,即仅考虑一步操作。当然即使是这个特例,强化学习和监督学习还是不同的,因为机器要通过尝试来发现各个动作产生的结果,而没有训练数据告诉机器应当做那个动作。一个是事前知道做什么动作,一个是事后才知道这个动作有什么后果。
要最大化单步奖赏需考虑两个方面:一是需知道每个动作带来的奖赏;二是要执行奖赏最大的动作。如果每个动作对应的奖赏是一个确定值,那么尝试所有的动作后就能找到奖赏最大的动作。不过,一般情况下,一个动作的奖赏是来自于一个概率分布,仅通过一次尝试并不能确切地获得平均奖赏值。看到这里,是不是有买彩票的熟悉感觉,每一次的投注都存在一个概率分布,并不确定知道这次投注的动作能带来什么回报。实际上,这种单步强化学习任务正是对应了一个理论模型,即K-摇臂赌博机(K-armed bandit)。K-摇臂赌博机有K个摇臂,赌徒在投入一个硬币后可选择按下其中一个摇臂