目录
引言
强化学习是机器学习的一个重要分支,它关注的是智能体(agent)如何在与环境的互动中通过试错(trial-and-error)的方式,逐步学习到一个最优的策略,使得自己从长期看来能够获得最大的回报。强化学习的典型应用场景包括:游戏人工智能、自动驾驶、机器人控制等,甚至在金融交易、资源管理等领域也有着广泛的应用。
强化学习的基本概念主要包括以下几点:
- 状态(State):智能体在一定时间点对环境的观察,是其决策的依据。
- 动作(Action):智能体根据当前状态选择的行为。
- 奖励(Reward):智能体在执行完动作后,环境给出的反馈,是一种短期的反馈。
- 策略(Policy):智能体选择动作的方式或者说规则,通常表示为在给定状态下采取某一动作的概率。
- 值函数(Value Function):用于评估当前策略下,智能体在长期未来能获得的期望回报。
强化学习的主要目标就是找到一个最优的策略&