目录
1 强化学习基本概念
强化学习(Reinforcement Learning, RL)主要用于描述和解决智能体与环境交互过程中通过学习策略以达到最大化收益的问题。通俗来讲,强化学习就是学习“做什么才能使智能体数值化的收益信号最大化”。强化学习有两个最重要最显著的特征:试错和延迟收益。
强化学习适用于解决智能体与环境不断交互的序贯决策问题。除智能体和环境外,强化学习还有四个核心要素:策略、收益信号、价值函数、环境模型。
(1) 策略:策略定义了智能体在特定时间的行为方式,它是状态到动作的映射;
(2) 收益信号:收益信号定义了强化学习问题中的目标,在每一步,环境向智能体发送一个称为收益的标量,智能体的唯一目标就是最大化长期总收益;
(3) 价值函数:价值函数从长远角度看什么是好的,一个状态的价值就是智能体从这个状态开始,对将来累积总收益的期望。从某种意义上来说,收益更加重要,价值次之。没有收益就没有价值,评估价值的目的就是获得更多的收益。但在评估策略时,最关心的是价值,动作的选择是基于对价值的判断做出的;
(4) 环境模型:环境模型是对环境反应的模拟,给定一个状态和动作,模型就可以预测外部环境的下一个状态和下一个收益。所以,环境模型常被用做规划。
2 强化学习的分类
2.1 Model-based和Model-free
Model-based是有模型的强化学习方法,智能体具备完备的环境模型,对环境有提前的认知,可以预先规划。其缺点是如果模型与真实环境不一致,实际应用时效果可能很差。典型的Model-based方法是动态规划。
Model-free属于无模型的强化学习方法,智能体放弃了环境模型,效率上可能不如前者,但是更容易实现。典型的Model-free方法有蒙特卡洛和时序差分学习。
总之,Model-based更注重于planning,而Model-free更注重于learning。
2.2 Policy-based和Value-based
Policy-based是基于策略的强化学习方法,智能体学习参数化的策略函数Pi,一般方式是通过梯度上升更新策略参数,使智能体在当前状态采取动作可以获得更多的收益。Policy-based方法具有如下优点:(1) 它比Value-based更容易收敛;(2) 适用于解决动作空间高维或者连续的强化学习问题;(3) 可以学到随机策略。同时,Policy-based也具有如下缺点:(1) 容易陷入局部最优;(2) 策略评价时不是很方便而且方差较大。
Value-based是基于价值的强化学习方法,通过智能体与环境交互,并利用采样数据更新智能体的状态值函数或动作值函数,最终目的是对值函数进行精确评估,并利用评估结果选择动作。Value-based没有办法得到随机策略,除非利用e-greedy方法得到近似随机策略。典型的Value-based是Q-learning和DQN。
2.3 On-policy和Off-Policy
On-policy是同轨策略的强化学习方法,生成采样数据的策略与实际学习的策略相同,典型的算法是SARSA。
Off-policy是离轨策略的强化学习方法,生成采样数据的策略与实际学习的策略不同,典型的算法是Q-learning。
3 参考文献
- X. Wang, S. Wang, X. Liang, et al., “Deep Reinforcement Learning: A survey,” IEEE Trans. Neural Netw. Learn. Syst., 2022.
- Q. Wei, H. Ma, C. Chun, et al. “Deep Reinforcement Learning with Quantum-Inspired Experience Replay,” IEEE Trans. Cybern., Vol. 52, no. 9, pp. 9326-9338, 2022.
- P. Ladosz, E. Ben, J. Dick, et al. “,” IEEE Trans. Neural Netw. Learn. Syst., vol. 33, no. 5, pp. 2045-2056, 2022.
- J. Wen, S. Kumar, R. Gummadi, et al., “Characterizing the Gap Between Actor-Critic and Policy Gradient”, ICML, 2021.
-
A. Jain, G. Patil, A. Jain, et al., “Variance Penalized On-Policy and Off-Policy Actor-Critic”, AAAI, Vol. 35, pp. 7899-7907, 2021.