强化学习基础
1. 定义:
- 智能体(agent)
- 环境(environment)
- 状态s
- 动作a
- 策略 π(a|s),确定性策略是从状态空间到动作空间的映射函数 π : S → A。随机性策略
表示在给定环境状态时,智能体选择某个动作的概率分布。 - 状态转移概率 p(s′ |s, a)
- 即时奖励 r(s, a, s′ )
2. 马尔可夫决策过程
马尔可夫过程 (Markov Process)是具有马尔可夫性的随机变量序列,其下一个时刻的状态只取决于当前的状态。
马尔可夫决策过程(Markov Decision Process,MDP)在马尔可夫过程中加入一个额外的变量:动作 a,即下一个时刻的状态和当前时刻的状态以及动作相关,
3.强化学习的目标函数
总回报:有终止状态,无终止状态
目标函数:最大化期望回报
4. 值函数
状态值函数
状态动作值函数:指初始状态为 s 并进行动作 a,然后执行策略 π 得到的期望总回报
贝尔曼方程:表示当前值函数可由下一值函数来计算
5. 深度强化学习
用深度学习来解决策略和值函数的建模问题
基于值函数的学习方法
策略有限是可对所有策略评估,选出最优策略,现实很难满足
1. 动态规划算法(model-based)
- 策略迭代
- 值迭代
2. model-free
2.1 蒙特卡罗
同策略、异策略,西瓜书p384
2.2 时序差分(TD)
- Q学习
- SARSA
2.3 深度Q网络