1. 背景介绍
1.1 深度强化学习的兴起
近年来,深度强化学习(Deep Reinforcement Learning,DRL)取得了令人瞩目的成就,在游戏、机器人控制、自然语言处理等领域展现出强大的能力。DRL 智能体通过与环境交互,学习最优策略,实现目标最大化。
1.2 马尔可夫决策过程 (MDP)
马尔可夫决策过程 (Markov Decision Process,MDP) 是强化学习的基础框架,描述了智能体与环境交互的过程。MDP 由以下要素构成:
- 状态空间 (State space):所有可能状态的集合。
- 动作空间 (Action space):智能体可以采取的所有动作的集合。
- 状态转移概率 (State transition probability):智能体在当前状态下执行某个动作后,转移到下一个状态的概率。
- 奖励函数 (Reward function):智能体在某个状态下执行某个动作后获得的奖励。
1.3 部分观测问题
在许多实际应用中,智能体无法观测到环境的完整状态