强化学习实际上是找一个从观测到动作的最优映射函数,输入是外界观测,目标是奖励最大化。
强化学习的主要特点:
- 学习过程中没有监督信号,只要奖励(reward)
- 其反馈(feedback)是延迟的而非瞬间的
- 强化学习过程与时间序列相关,是一个序贯决策的过程
- agent采取的动作(action)会影响到它所接受的序列数据
强化学习算法分类:
- model-free RL(不理解环境):不具备环境的先验知识,所以只能通过与环境的不断交互来积累经验来进行相应的学习。
- model-based RL(理解环境):agent非常了解有关环境的各种情况,比如说状态到状态之间是怎样转换的,以多大的概率进行转换,在某一个状态上执行某个动作可以获得什么样的立即回报。这样一来,agent可以根据对环境的先验知识进行相关的学习和推理。
- policy-based RL(基于策略):可以通过对状态的价值的评估来选取相应的动作执行,根据概率进行动作的选择,所以即使在某个动作上的概率值很大,但是在真正执行的过程中,基于策略的强化学习方法也不一定真的能够选取到这个动作。当动作是连续的情况下,可以采用基于策略的强化学习算法来进行学习和推演,因为基于策略的强化学习方法是可以用概率来选择某一个特定动作的。
- value-based RL(基于值):可以通过对状态的价值的评估来选取相应的动作执行。如果动作是连续的而不是离散的,基于值的方法就无法解决这个问题。
- on-policy(在线学习):边执行动作边学习的学习方法,对于agent和系统的交互过程中所选择的动作以及在计算评估函数的过程中所选择的动作,这两套策略是完全一致的。
- off-policy(离线学习):通过自己或他人的经验进行学习的一种方法。交互所选择的动作和更新函数值所选择的动作所采取的策略是不一样的。
- mente-carlo update(回合更新):只有在每一个回合结束之后,才去回顾相应的经验,进而调整策略。
- temporal-difference update(单步更新):在每一步的决策过程中,都想办法调整策略。
【马尔可夫决策过程(MDP)】
马尔可夫性:系统的下一个状态仅与当前状态有关,而与以前的状态无关。
马尔可夫过程:马尔可夫过程是一个二元组(S,P),且满足S是有限状态集合,P是状态转移概率。给定转移概率时,从某状态出发存在多条马尔可夫链。
马尔可夫决策过程优元组(S,A,P,R,γ)描述,其中:
- S为有限的状态集
- A为有限的动作集
- P为状态转移概率
- R为回报函数
- γ为折扣因子,用来计算累积回报
与马尔可夫过程不同,其状态转移概率包含动作,即