#Q—learning算法——强化学习算法
智能体根据某种动作选择策略在某种状态下做出某种动作并得到环境即时反馈,收到正反馈时 Q
值增大,收到负反馈时 Q 值减小。最终,智能体将参考 Q 值进行动作的选择。
输入:迭代次数 T,状态集 S,学习率 α,探索率𝜖,折扣因子𝛾
输出:状态动作值函数𝑄(𝑆, 𝐴)
1.初始化所有的状态和动作的 Q 值
#Q—learning算法——强化学习算法
智能体根据某种动作选择策略在某种状态下做出某种动作并得到环境即时反馈,收到正反馈时 Q
值增大,收到负反馈时 Q 值减小。最终,智能体将参考 Q 值进行动作的选择。
输入:迭代次数 T,状态集 S,学习率 α,探索率𝜖,折扣因子𝛾
输出:状态动作值函数𝑄(𝑆, 𝐴)
1.初始化所有的状态和动作的 Q 值