- 博客(2)
- 收藏
- 关注
原创 Q Learning算法实现
Q learning 算法是一种value-based的强化学习算法,Q是quality的缩写,Q函数 Q(state,action)表示在状态state下执行动作action的quality, 也就是能获得的Q value是多少。算法的目标是最大化Q值,通过在状态state下所有可能的动作中选择最好的动作来达到最大化期望reward。Q learning算法使用Q table来记录不同状态下不同动作的预估Q值。
2024-03-13 20:31:50 1129 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人