初步介绍基本概念
环境state、动作action、智能体agent、策略函数policy、奖励reward。
例如“超级马里奥”的游戏中,state是当前所处环境的状态;智能体agent是马里奥;动作action有[向左、向上、向右]三种;策略函数如下,就是在当前环境下马里奥做出各个动作的概率。
policy函数是强化学习的学习内容
举个例子,如果想利用强化学习使机器自主操纵马里奥,当输入这张图片到policy函数π,agent(马里奥)会做出三种动作中的一种,例如policy函数算出“向左概率0.2,向右概率0.1,向上跳概率为0.7”,policy函数自动操作它做一个随机抽样,以0.2的概率向左走,0.1的概率向右走,0.2的概率向上跳,强化学习就是学这个policy函数。只要有了这个policy函数,就可以让它自动操作马里奥打游戏了。
reward影响强化学习的性能
定义reward 的值 R,以指导policy概