目录
1. Q-learning原理
Q-learning是一种基于值的强化学习算法,用于在不依赖环境模型的情况下学习最优策略。它的目标是通过学习动作-状态对的价值(即Q值),找到使得累计奖励最大的策略。以下是Q-learning的关键步骤和公式:
1.1 Q值
Q值(动作价值)是一个函数,表示在某一状态下选择某一动作后,能够获得的未来累计奖励。Q值表示为 ,其中
是当前状态,
是当前动作。
1.2 更新规则
Q-learning 的核心是 Q 值的更新公式。在每一步,Q-learning 会通过与环境交互,更新对应的 Q 值:
其中:
是当前 Q 值