强化学习
隔壁的NLP小哥
积跬步,至千里
展开
-
强化学习理论——动态规划理论
强化学习理论——动态规划理论之前的文章:强化学习理论——MDP过程1、引入在上一篇文章中,我们描述了基于MDP框架的下的强化学习过程以及策略评估过程的推导,下面我们主要来介绍基于动态规划过程的强化学习过程。1.1、动态规划理论的引入在我们之前介绍的MDP过程中,我们使用MDP=(S,A,P,r,γ)来表示一个马尔科夫决策过程,进一步根据转移概率P的是否已知,我们可以将MDP过程分成...原创 2020-05-04 21:11:11 · 422 阅读 · 0 评论 -
强化学习理论——马尔科夫决策过程(MDP)
强化学习——马尔科夫决策过程(MDP)1、MDP引入1.1、强化学习引入对于强化学习而言,其有几个基本的组成部件:环境:所谓的环境,就是指我们用于强化学习的数据。智能体:无论是任何的学习方式,我们都可以将其抽象成一个模型在寻找最佳参数的过程,在强化学习中,我们将模型抽象成一个“有思想的智能体”。模型学习最佳参数的过程可以抽象成一个智能体在寻找最优回报的过程。动作:在强化学习中,智能体...原创 2020-05-02 16:44:03 · 2751 阅读 · 0 评论