强化学习
opencv_2012
这个作者很懒,什么都没留下…
展开
-
David Silver强化学习笔记3
本文是看David Silver的强化学习视频的时候记的笔记,整理了视频的思路,补充了一些证明。1,什么是动态规划?跳过,不写。 2,迭代策略估计任务:估计给定策略的状态值函数方法1:迭代算法(iterative application of Bellman expectation backup,咋翻译?), 使用synchronous back...原创 2019-02-17 11:33:07 · 412 阅读 · 2 评论 -
强化学习笔记1
本文是看David Silver的强化学习视频的时候记的笔记,整理了视频的思路,补充了一些证明。先是几个概念:1,Agent 和Environment在t时刻,Agent执行,接收和奖赏Environment接收动作,释放和2,History和StateHistory是一个序列,而State是History的函数:3, Reward和Return...原创 2019-02-10 22:02:06 · 205 阅读 · 0 评论 -
强化学习笔记2
本文是看David Silver的强化学习视频的时候记的笔记,整理了视频的思路,补充了一些证明。接下来是MDP。1,状态是Markov的状态是Markov的当且仅当P[| ] =P[| ,..., ],也就是t+1时刻的状态仅和t时刻的状态有关;2,状态转移矩阵P若共有n个状态,则有状态转移矩阵:其中,当然,矩阵每一行,每一列的之和为1。3...原创 2019-02-10 23:01:25 · 220 阅读 · 0 评论 -
重要性采样
from scipy import statsfrom scipy.stats import normimport numpy as npimport matplotlib.pyplot as pltdef f(x): return np.sin(x) * x;def intf(x1, x2): return (np.sin(x2)- x2 * np.cos(x2)...原创 2019-02-27 18:19:37 · 549 阅读 · 0 评论 -
David Silver强化学习笔记4
本文是看David Silver的强化学习视频的时候记的笔记,整理了视频的思路,补充了一些证明。写博客开始MC方法。前面对策略估计和改进都是在模型(转移概率 + 奖励)已知的情况下进行的。如果模型未知(model-free),怎么估计和改进策略呢?从前面章节看,策略估计和改进的大致分两步:计算状态值和动作-状态值估计策略,然后在此基础上用贪婪算法改进策略;先看看MC方法如何计算值函...原创 2019-03-14 17:51:39 · 499 阅读 · 1 评论