![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
强化学习
文章平均质量分 95
日月忽其不淹兮
路漫漫其修远兮 吾将上下而求索
展开
-
深度强化学习(五)Model Free Control
前言行为策略(Behavior Policy)和目标策略(Target Policy)行为策略用来与环境互动产生数据的策略,即在训练过程中做决定;目标策略是学习训练完毕用来应用的策略;存在两个策略的原因:强化学习中存在 exploitation(利用) 和 exploration(探索) 的问题,我们需要使用行为策略来保持探索性,来优化我们的目标策略On Policy:实际上就是行为策略和目标策略是一个策略;“Learn on the Job”: 通过在策略 π 抽取的经验中原创 2021-02-22 14:55:24 · 354 阅读 · 0 评论 -
深度强化学习(四)Model Free Prediction
前提:一个环境可以用 MDP 进行表示,但是我们并不知道这个 MDP,我们还是想要解决问题,找到最优解到访本站一、Introduction1)课程联系:上节课:Planning by dynamic programmingSolve a know MDP本节课:Model-free prediction 【给定一个 Policy ,我们按照这个 Policy 可以获取多少奖励】评估(Estimate)一个未知的 MDP 的 value function下节课:Mo.原创 2021-02-15 16:37:56 · 400 阅读 · 0 评论 -
深度强化学习(三)Planning by Dynamic Programming
这里说的 Dynamic Programming 实际是工行就是我们算法中所说的动态规划,为了在以后在看到 Dynamic Programming 不再陌生,这里统一使用 Dynamic Programming,简写为(DP)博客网站一、Introduction1) 什么是 DPDynamic:问题的序列或者时间组成部分(sequential or temporal component to the problem)Programming:优化一个“程序”,比如一个策略(Policy).原创 2021-02-11 15:08:37 · 307 阅读 · 0 评论 -
深度强化学习(2)马尔可夫决策过程(MDP)
本文首发于个人博客,欢迎逛逛呀!马尔可夫决策过程描述了强化学习的环境【环境是完全可观察的】,几乎所有的强化学习问题都可以转化为马尔可夫决策过程一、马尔可夫过程(Markov Process)1)马尔可夫性质:当前状态已经包含了历史信息中对决定下一步有用的所有信息,或者说给定当前的状态,过去的状态与未来的状态是独立的;数学表达式:2) 马尔可夫过程(马尔可夫链)马尔可夫过程是无记忆的随机过程,是一系列的具有马尔可夫性质的随机状态,可以用二元组 <S, P>.原创 2021-02-08 16:10:39 · 780 阅读 · 3 评论 -
深度强化学习(1)Intro to RL
本文首发于我的博客网站,访问我的网站,获取相关资料吧一、相关资料An Introduction to Reinforcement Learning, Sutton and Barto, 1998【可以从 我的站点 获取】Algorithms for Reinforcement Learning, Szepesvari【更加精简】二、About Reinforcement Learning强化学习(RL)横跨多学科,在不同的学科中有不同的名字 计算机科学 ------ 机器学.原创 2021-02-06 16:01:51 · 190 阅读 · 0 评论