一、概览
1、什么是强化学习?
2、马尔科夫决策过程。
3、Q-学习。
4、策略梯度(Policy Gradients)
二、强化学习
1、概念:
强化学习,假设有一个代理人(Agent,CS中的一个概念,下简写为Agn)和其相应的环境(Environment,下简写为Env)。若Env给Agn一个状态(state st),则Agn给Env一个反馈动作(Action at)。而后Env再反馈给Agn一个奖励(Reward,或者称为回馈)以及Env的下一个状态(state st+1)。如此往复循环。
举个栗子,小游戏是比较典型的强化学习案例。
目标是获得高分,环境状态是原始的游戏图像像素输入,动作是游戏需要的操作,奖励就是每个回合分数增减。
三、马尔科夫决策过程(Markov Decision Process,MDP)
1、定义
是Mathematical formulation of the RL problem (这个没看懂)
马尔科夫性质(Markov property):当前状态完全地决定了全局状态(Current state completely characterises the states of the world)。
数学定义:
算法过程抽象: