![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
强化学习
文章平均质量分 78
EmilyGnn
这个作者很懒,什么都没留下…
展开
-
深度强化学习—DQN
一、DQN将卷积神经网络(CNN)和Q-Learning结合起来。CNN的输入是原始图像数据(作为状态State),输出则是每个动作Action对应的价值评估Value Function(Q值)。二、DL与RL结合问题: 1、DL需要大量带标签的样本进行监督学习;RL只有reward返回值,而且伴随着噪声,延迟(过了几十毫秒才返回),稀疏(很多State的reward是0)等问题...原创 2018-09-17 10:37:41 · 792 阅读 · 0 评论 -
价值迭代网络
《Value Iteration Networks》《价值迭代网络(Value Iteration Networks)》获得了第 30 届神经信息处理系统大会(Conference and Workshop on Neural Information Processing Systems) NIPS 2016唯一的最佳论文奖项(Best Paper Award)文章最大的贡献跟随现阶段深度学...原创 2018-09-24 21:32:44 · 1750 阅读 · 0 评论 -
强化学习
机器学习可以分为三类,分别是 supervised learning,unsupervised learning 和reinforcement learning。而强化学习与其他机器学习不同之处为:– 没有教师信号,也没有label。 只有reward,其实reward就相当于label。– 反馈有延时,不是能立即返回。– 相当于输入数据是序列数据。– agent执行的动作会影响之后的数据...原创 2018-09-22 18:09:04 · 903 阅读 · 0 评论 -
强化学习(五) - 无模型学习(Sarsa、Q-Learning)
上一节主要讲了Monte-Carlo learning,TD learning。这两个方法都是在给定策略下来估计价值函数V(s)。但是我们的目标是想得到最优策略。基于模型的策略优化过程分为策略评估和策略改进。从一个策略 π 和 v(s) 函数开始,先利用当前策略 π估算v值,然后通过v值来更新策略 π。交替迭代,最后会收敛到最优策略和最优价值函数。那么对于模型未知的情况,是否还能使用呢?答案...转载 2018-10-17 22:39:52 · 5399 阅读 · 0 评论 -
强化学习(一) - 基础认知
强化学习 - 基础认知强化学习是想让一个智能体(agent)在不同的环境状态(state)下,学会选择那个使得奖赏(reward)最大的动作(action)。Agent在 t 时刻,通过观测环境得到自己所在的 状态(state),接下来agent根据 策略(policy) 进行决策后,做出一个 动作(action)。这个action就会使得agent在 环境(environment) 中转移到...转载 2018-10-16 21:32:08 · 1396 阅读 · 0 评论 -
马尔科夫决策过程
马尔科夫决策过程Makov的定义下一个状态的产生只和当前的状态有关,即:本来直观上讲,下一个状态的产生跟所有历史状态是有关的,也就是等式右边所示。但是Markov的定义则是忽略掉历史信息,只保留当前状态的信息来预测下一个状态,这就叫Markov。状态转移概率对于一个具体的状态s和它的下一个状态s’ ,它们的状态转移概率(就是从s转移到s’的概率)定义为:假如总共有n种状态可以选择...转载 2018-10-16 23:18:39 · 7219 阅读 · 1 评论 -
强化学习(三) - 基于模型学习(DP)
上一节主要是引入了MDP(Markov decision process)的各种相关的定义与概念。最后得到了 最优状态值函数v∗(s)v_∗(s)v∗(s) 和 最优状态动作值函数q∗(s,a)q_∗(s,a)q∗(s,a) 的定义与公式。若学习任务中的四个要素都已知,即S、A、P、R都已经给出,这样的情形称为 “有模型学习”。这一节主要是在已知模型的情况下利用动态规划来进行强化学习求解v...转载 2018-10-17 13:04:17 · 2748 阅读 · 0 评论 -
强化学习(四) - 无模型学习(MC、TDL)
上一节讲的是在已知模型的情况下,通过动态规划来解决马尔科夫决策过程(MDP)问题。具体的做法有两个:一个是策略迭代,一个是值迭代。从这一节开始,我们将要进入模型未知的情况下,如何去解决MDP问题。模型未知,即状态转移概率 Pss′aP^a_{ss′}Pss′a 这些我们是不知道的。所以我们无法直接利用如下Bellman方程来求解V和Q值得到最优策略。所以,为了能够从环境中学习,我们需要让...转载 2018-10-17 20:10:50 · 5995 阅读 · 0 评论