- 博客(3)
- 收藏
- 关注
原创 强化学习笔记——马尔可夫决策过程MDP
策略函数可以是确定性的,即对于每个状态只选择一个行动,也可以是随机的,即对于每个状态选择一个行动的概率分布。够获得的长期累积奖励。动作值函数表示在给定状态和行动下,智能体能够获得的长期累积奖励的期望值。其中,Q(s, a)表示在状态s下选择行动a的动作值函数,α是学习率,r是即时奖励,γ是折扣因子,s’是下一个状态,a’是在下一个状态下根据当前策略选择的行动。其中,Q(s, a)表示在状态s下选择行动a的动作值函数,α是学习率,r是即时奖励,γ是折扣因子,s’是下一个状态,a’是在下一个状态下选择的行动。
2023-11-15 00:48:02 454
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人