强化学习
文章平均质量分 58
chen5561
这个作者很懒,什么都没留下…
展开
-
强化学习——On-policy
目录三个基本概念——哪些是可变的Actor的决策——神经网络分类器一次game——trajectory发生的概率trajectory的reward和reward的期望action的梯度n次游戏,每次游戏t次行为,所有行为发生的概率乘以它的效果。参数更新n次游戏的收集结果只用一次,之后使用更新后的action实现的时候类似于一个分类器让reward细化到每个a...原创 2018-09-12 23:33:34 · 268 阅读 · 0 评论 -
Dopamine 使用教程
简介基本信息介绍现有的 RL 框架并没有结合灵活性和稳定性以及使研究人员能够有效地迭代 RL 方法,并因此探索可能没有直接明显益处的新研究方向。所以Google推出一个基于 Tensorflow 的框架,旨在为 RL 的研究人员提供灵活性、稳定性和可重复性。此版本还包括一组阐明如何使用整个框架的 colabs。精简的代码(大约 15 个Python 文件)。通过专注于 Arcade 学...原创 2018-09-06 16:46:11 · 5943 阅读 · 6 评论 -
Sparse Reward
经常是错误的动作,没有reward,只能随机动作,很慢引导的reward 需要领域知识,与实际任务相关好奇心reward——期待状态变化——重要的状态network2是要从两个状态之间的到action,说明是重要的train data要有顺序,从易到难——ML的通用技巧 阶层学习——大目标到小而具体的目标 黄色的是...原创 2018-09-15 15:11:23 · 516 阅读 · 0 评论 -
Qlearn 连续问题
critic不仅评判各个动作的得分,还知道actor该怎么做 不好train的网络怎么办AC与GAN类似,一样难训练原创 2018-09-15 14:05:11 · 325 阅读 · 0 评论 -
A3C=value based+actor based
A3C文献actor based复习从右往左理解公式:在互动获取数据之后,在某个状态s采取行为a的概率,括号中是权重(越往后影响越低,有正有负),玩到底将所有的加起来得到G。计算梯度,更新actor的参数 问题在于,某个状态s经过a之后的状态是一个分布,除非采样很多,不然极不稳定,而每个s的每个action的采样不可能很多能不能估计期望值?所以有了value base的方法:Q...原创 2018-09-15 09:15:45 · 215 阅读 · 0 评论 -
强化学习——off-policy
Table of Contentsp(x)/q(x)是一个权重这个取样的过程就是与环境互动出现一个轨迹的过程横坐标就是各种行为,红线是对应的reward,蓝线是原本的action的分布,也是与环境互动的取样分布我们用绿线的采样,求蓝线的梯度,对蓝线的参数进行修改,importance samping 保证了绿线采样得到的是蓝线的梯度分子分母差别过大会导致,效果不好优化参数的...原创 2018-09-13 17:24:53 · 581 阅读 · 0 评论 -
强化学习——Qlearning——value based
目录Critic评判一个actor面对不同s时的得分借助reward函数的计算结果,但更专注于行为本身的意义评判一个行为的在一个状态下的得分的MC和TD方案TD方案综合了历史信息,更加符合行为本身Critic作为Q函数,与actor关联,输入状态,输出各种行为的得分从已有的样本集中用TD or MC搜集信息,统计当前agent的每个s中每个action的价值,更新agent...原创 2018-09-13 13:48:48 · 4363 阅读 · 0 评论 -
Dopamine 使用教程2
接下来我们深入dopamine内部,看看究竟是个什么玩意儿1.创建一个Runner对象1.1在对象的初始化函数中执行create_environment_fn放在self._environment中就是这个游戏1.2在create_agent_fn创建一个MyRandomDQNAgent对象sess 计算图,记录操作 num_action 9 agent...原创 2018-09-20 16:57:04 · 1871 阅读 · 0 评论