目录
S14.1增强学习(Reinforcement Learning,RL)
S14.2马尔科夫决策过程Markov Decision Processes
S14.1增强学习(Reinforcement Learning,RL)
增强学习(强化学习)架构如下图所示。在建立增强学习过程中,有一个代理Agent和一个环境增强Environment。环境赋予代理一个状态State,代理将采取行动Action,然后环境将回馈一个奖励Reward,然后给出下一个状态。这一过程将会继续循环下去,直到环境给出一个终止状态,结束学习过程。增强学习应用有车载立柱问题Cart-Pole Problem,机器人运动Robot Locomotion,Atari Games,Go等等。
S14.2马尔科夫决策过程Markov Decision Processes
如何在数学上公式化强化学习问题呢?MDP是对增强学习问题的数学表达。MDP满足Markov性质,即当前状态完全刻画了世界的状态。MDP由一组对象定义,如下所示。其中P表示下一个状态的转移概率分布,即给定一个状态行为组,代理将采取的动作。是折扣因子,它是用来对近期奖励以及远期奖励分配权重的。
MDP的工作方式如下:
基于MDP工作方式,定义一个策略。是一个从状态到行为的函数,它指定了在每个状态下要采取的行动,可以是确定性的,也可以是随机的。那么MDP的目标就是,要找到最佳决策,能够最大化奖励之和,即最大化如下公式:
最佳策略所提供的信息是在任意的给定状态下,应该采取什么行动来最大化将得到的奖励总和。在增强学习中,初始状态和转移概率分布p都是随机的,而p会给出下一个状态的分布。那么如何处理这种随机性?最大化预期的奖励总和。那么最优决策公式:
轨迹:例如
值函数Value function:表明当前状态有多好。
Q值函数Q-value functon:表明在状态s时,采取行动a有多好。如何求解这个最优策略。