![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
强化学习
Ray_rainbow
变秃也变强
展开
-
论文笔记 General Advantage Estimation(GAE)
论文笔记GAE1 引言2 GAE3 置信域值函数更新4 实验GAE 全称General Advantage Estimation,是一种平衡优势函数估计中的偏差和方差的方法。论文地址https://arxiv.org/abs/1506.024381 引言策略梯度法存在的两个方面问题:样本利用率,由于样本利用率低需要大量采样;算法稳定性,需要让算法在变化的数据分布中稳定提升;值函...原创 2020-03-28 00:26:10 · 6747 阅读 · 1 评论 -
置信域方法总结——TRPO、ACER、ACKTR、PPO
置信域方法总结——TRPO、ACER、ACKTR、PPO一、概述引用GAE论文的观点,策略梯度法存在的两个方面问题:样本利用率低,由于样本利用率低需要大量采样;算法训练不稳定,需要让算法在变化的数据分布中稳定提升;目前比较常用的四种置信域方法TRPO、ACER、ACKTR、PPO,就是围绕策略梯度法的上述两方面问题进行改进和优化。算法TRPOACERACKTRPPO...原创 2020-03-28 00:03:32 · 2455 阅读 · 0 评论 -
ACER算法介绍
ACER 算法介绍1. 离散动作1.1 截断重要性采样1.2 新的置信域方法1.3 离散算法Atari实验2 连续动作2.1 stochastic dueling network3 总结ACER算法是在论文SAMPLE EFFICIENT ACTOR-CRITIC WITH EXPERIENCE REPLAY中提出的一种可以使用off-policy训练的置信域策略优化方法。ACER的目标是解决...原创 2020-03-25 00:11:15 · 1524 阅读 · 0 评论 -
强化学习论文——Policy invariance under reward transformations: Theory and application to reward shaping
Policy invariance under reward transformations: Theory and application to reward shaping这篇文章是奖励塑造的重要理论基础,对奖励函数的设计具有指导作用,作者有吴恩达,地址http://luthuli.cs.uiuc.edu/~daf/courses/games/AIpapers/ng99policy.pdf...原创 2020-02-12 01:03:26 · 1585 阅读 · 0 评论 -
2048游戏DQN实验
2048 DQN实验背景工作分析问题状态表征强化学习算法参数设计代码实现实验结果CNN输入全连接输入CNN input + Priority总结背景我已经做过一些强化学习相关项目,本科的时候也用min-max搜索做过2048,一直觉得2048应该是适合被强化学习解决的,但是查询发现并没有比较合适靠谱的实现代码,于是完成并开源了我的一部分实现工作,供RL learner 参考,github链接 ...原创 2019-11-26 12:26:23 · 2283 阅读 · 0 评论