【深度强化学习】强化学习的基本概念

WilliamChou123

已于 2023-12-21 23:28:00 修改

阅读量528

点赞数 11

分类专栏：深度强化学习（DRL）文章标签：机器学习人工智能

于 2023-12-16 17:33:33 首次发布

本文链接：https://blog.csdn.net/qq_40718185/article/details/135035412

版权

深度强化学习（DRL）专栏收录该内容

10 篇文章 1 订阅

订阅专栏

强化学习 (Reinforcement Learning, RL): 一种机器学习方法，其中智能体通过与环境的交互学习，以最大化累积奖励。
智能体 (Agent): 在强化学习中执行动作并与环境交互的实体。
环境 (Environment): 智能体所处的外部系统，其状态对智能体的行为和奖励产生影响。
状态 (State): 描述环境特定时刻的信息，对智能体的决策和行为起关键作用。
动作 (Action): 智能体在特定状态下可以执行的操作或决策。
奖励 (Reward): 环境提供的一个信号，用于评估智能体的行为。目标是通过学习最大化累积奖励。
策略 (Policy): 智能体在特定状态下选择动作的策略或规则。
价值函数 (Value Function): 评估在给定状态或状态-动作对下的预期累积奖励，有助于智能体决策。
Q值 (Q-Value): 在强化学习中，表示在给定状态和执行某个动作后所能获得的累积奖励的预期值。
探索与利用 (Exploration and Exploitation): 在学习过程中，智能体需要在已知和未知的动作中进行权衡，既要尝试新的可能性（探索），又要选择目前看似最好的动作（利用）。
马尔科夫决策过程 (Markov Decision Process, MDP): 描述强化学习问题的数学框架，包括状态、动作、奖励函数等元素。
深度学习 (Deep Learning): 一种机器学习方法，使用深层神经网络来建模和学习复杂的表征。
神经网络 (Neural Network): 由神经元组成的计算模型，用于在深度强化学习中拟合复杂的函数关系。
强化学习算法 (Reinforcement Learning Algorithm): 解决强化学习问题的特定算法，例如Q-learning、Policy Gradient等。
深度 Q 网络 (Deep Q-Network, DQN): 使用深度神经网络来估计Q值的一种强化学习算法。
策略梯度方法 (Policy Gradient Methods): 一类强化学习方法，直接学习策略函数的参数，而非价值函数。
蒙特卡洛方法 (Monte Carlo Methods): 通过从经验中采样获得奖励的方法，而不依赖模型。
值迭代 (Value Iteration): 一种求解MDP中值函数的迭代算法。
策略迭代 (Policy Iteration): 一种求解MDP中策略的迭代算法。
Actor-Critic 框架: 结合了策略梯度方法和值函数估计的强化学习框架，包括一个策略网络（Actor）和一个值函数网络（Critic）。