-
强化学习 (Reinforcement Learning, RL): 一种机器学习方法,其中智能体通过与环境的交互学习,以最大化累积奖励。
-
智能体 (Agent): 在强化学习中执行动作并与环境交互的实体。
-
环境 (Environment): 智能体所处的外部系统,其状态对智能体的行为和奖励产生影响。
-
状态 (State): 描述环境特定时刻的信息,对智能体的决策和行为起关键作用。
-
动作 (Action): 智能体在特定状态下可以执行的操作或决策。
-
奖励 (Reward): 环境提供的一个信号,用于评估智能体的行为。目标是通过学习最大化累积奖励。
-
策略 (Policy): 智能体在特定状态下选择动作的策略或规则。
-
价值函数 (Value Function): 评估在给定状态或状态-动作对下的预期累积奖励,有助于智能体决策。
-
Q值 (Q-Value): 在强化学习中,表示在给定状态和执行某个动作后所能获得的累积奖励的预期值。
-
探索与利用 (Exploration and Exploitation): 在学习过程中,智能体需要在已知和未知的动作中进行权衡,既要尝试新的可能性(探索),又要选择目前看似最好的动作(利用)。
-
马尔科夫决策过程 (Markov Decision Process, MDP): 描述强化学习问题的数学框架,包括状态、动作、奖励函数等元素。
-
深度学习 (Deep Learning): 一种机器学习方法,使用深层神经网络来建模和学习复杂的表征。
-
神经网络 (Neural Network): 由神经元组成的计算模型,用于在深度强化学习中拟合复杂的函数关系。
-
强化学习算法 (Reinforcement Learning Algorithm): 解决强化学习问题的特定算法,例如Q-learning、Policy Gradient等。
-
深度 Q 网络 (Deep Q-Network, DQN): 使用深度神经网络来估计Q值的一种强化学习算法。
-
策略梯度方法 (Policy Gradient Methods): 一类强化学习方法,直接学习策略函数的参数,而非价值函数。
-
蒙特卡洛方法 (Monte Carlo Methods): 通过从经验中采样获得奖励的方法,而不依赖模型。
-
值迭代 (Value Iteration): 一种求解MDP中值函数的迭代算法。
-
策略迭代 (Policy Iteration): 一种求解MDP中策略的迭代算法。
-
Actor-Critic 框架: 结合了策略梯度方法和值函数估计的强化学习框架,包括一个策略网络(Actor)和一个值函数网络(Critic)。
【深度强化学习】强化学习的基本概念
于 2023-12-16 17:33:33 首次发布