强化学习
sliceoflife
这个作者很懒,什么都没留下…
展开
-
深度强化学习笔记02-马尔可夫链
深度强化学习笔记02-马尔可夫链这几天杂事比较多,看了一些相关内容,但是没有时间形成笔记,此笔记复制与datawhale的MDP一节,后期自己学习填补。MDP[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ZqnWSNgx-1603286418354)(img/2.1.png)]这节课我会给大家介绍马尔可夫决策过程。在介绍马尔可夫决策过程之前,先介绍它的简化版本:马尔可夫链以及马尔可夫奖励过程,通过跟这两种过程的比较,我们可以更生动地理解马尔可夫决策过程。第二部分转载 2020-10-21 21:20:53 · 887 阅读 · 0 评论 -
深度强化学习笔记01
深度强化学习笔记01文章目录深度强化学习笔记01一 深度强化学习关键字二 深度强化学习知识点一 深度强化学习关键字强化学习(Reinforcement Learning):Agent可以在与复杂且不确定的Environment进行交互时,尝试使所获得的Reward最大化的计算算法。Action: Environment接收到的Agent当前状态的输出。State:Agent从Environment中获取到的状态。Reward:Agent从Environment中获取的反馈信号,这个信号指定了原创 2020-10-19 20:27:52 · 254 阅读 · 0 评论