![](https://img-blog.csdnimg.cn/20200115204524771.jpeg?x-oss-process=image/resize,m_fixed,h_224,w_224)
顶会期刊论文阅读笔记
文章平均质量分 93
阅读各种深度好文呀!
小小何先生
总是感觉自己是个英雄,还很帅!
展开
-
【AlphaHoldem】端到端强化学习玩德州扑克
强化学习端到端玩德州扑克。原创 2022-09-14 23:21:16 · 2068 阅读 · 2 评论 -
【DouZero】 强化学习+self play达到人类玩家斗地主水平。
强化学习玩斗地主原创 2022-09-10 11:49:26 · 3440 阅读 · 0 评论 -
【五分钟Paper】基于参数化动作空间的强化学习
参数化动作空间Q-PAMDP算法。原创 2022-07-23 23:33:31 · 872 阅读 · 0 评论 -
【5分钟Paper】Pointer Network指针网络
Pointer Network网络框架核心理解。原创 2022-07-18 01:26:14 · 692 阅读 · 0 评论 -
基于模型的多智能体强化学习中的模型学习理解
文章目录多个智能体整体联合学习智能体分开学习环境模型HPPAORPO环境模型需要学习两个函数:状态转移函数,和奖励函数。多个智能体整体联合学习若采用centralized world model进行环境模型的学习,此时环境模型需要在给定联合的观测Ot={oti}i=1n\mathbf{O_{t}}=\{o_{t}^{i}\}_{i=1}^{n}Ot={oti}i=1n,和给定联合的动作空间下at={ati}i=1n\mathbf{a_{t}}=\{a_{t}^{i}\}_{i=1}^{n}at原创 2022-05-28 22:17:32 · 580 阅读 · 1 评论 -
【5分钟 Paper】Reinforcement Learning with Deep Energy-Based Policies
论文题目:Reinforcement Learning with Deep Energy-Based Policies所解决的问题?背景 以往的方法是通过stochastic policy来增加一点exploration,例如增加噪声,或者使用一个entropy很高的policy来对其进行初始化。 在有些情况下我们需要去学习一个stochastic policy,为什么要去学这样...原创 2020-03-10 23:00:57 · 821 阅读 · 0 评论 -
解读【ICLR2020】多伦多大学:基于策略网络的探索模型规划
文章目录所解决的问题?背景所采用的方法?取得的效果?所出版信息?作者信息?论文题目:Exploring Model-based Planning with Policy Networks所解决的问题?背景所采用的方法?网络结构代码实现取得的效果?所出版信息?作者信息?...原创 2021-01-25 15:12:00 · 451 阅读 · 0 评论 -
PETS:伯克利大神Sergey Levine指导的概率集成轨迹采样算法
文章目录所解决的问题?背景所采用的方法?大体思路具体方法代码实现论文题目:Deep Reinforcement Learning in a Handful of Trials using Probabilistic Dynamics Models所解决的问题? 基于模型的强化学习算法由于要使用一个深度神经网络去学习一个环境model,而纯神经网络这种大参数的近似函数求解会带来很多缺陷,比如说计算开销,对于环境的不确定性无法很好的表征,由于参数量比较大,其求解相对来说也并不会很容易。 作者通过原创 2021-01-24 16:20:58 · 1607 阅读 · 2 评论 -
解读:AlphaGo之父倾力打造:The Predictron端到端训练与规划
文章目录所解决的问题?背景所采用的方法?取得的效果?所出版信息?作者信息?论文题目:The Predictron: End-To-End Learning and Planning所解决的问题? 提出predictron结构,一种abstract model来表示马尔可夫奖励过程。端到端直接训练,相对来说能够省去一些没有必要的计算开销。但同时也损失了一些可解释性。背景 基于模型的强化学习主要的思想聚焦于两个问题:1. 学习模型。2. 基于这个所学的模型进行规划。模型可以表示为MRP或者MD原创 2021-01-21 13:43:10 · 405 阅读 · 0 评论 -
【Nature论文浅析】基于模型的AlphaGo Zero
文章目录所解决的问题?背景所采用的方法?取得的效果?所出版信息?作者信息?论文题目:Mastering Atari, Go, chess and shogi by planning with a learned model所解决的问题? 规划planning一直都是人工智能研究领域中,人们追逐的一个比较难的研究点,基于树的规划算法,像AlphaGo这类算法已经取得了巨大的成功,然而基于树模型的规划算法需要一个完美的环境模型,这个条件在真实的世界中是很难被满足的。背景 基于模型的强化学习方法原创 2020-12-31 15:40:24 · 530 阅读 · 0 评论 -
【ICLR2020】Dream to Control:Learning Behaviors by Latent Imagination
文章目录所解决的问题?背景所采用的方法?取得的效果?所出版信息?作者信息?论文题目:Dream to Control:Learning Behaviors by Latent Imagination所解决的问题? 先学一个环境模型,所学的这个环境模型能够帮助智能体去学习一些复杂的行为。智能体从这个所学的环境模型中学习的方式就多种多样了,作者提出了一种方法,dreamer,在所学的纯隐状态空间模型中进行想象规划。并取得了较好的效果。背景 强化学习是需要学习环境的表征的,或者称之为对于环境的理原创 2021-01-25 19:40:44 · 757 阅读 · 0 评论 -
【ICML2019】Set Transformer:置换不变的注意力神经网络框架
所解决的问题 深度学习中很关键的一环就是学习数据的表示,但是所设计的网络很多时候都是固定数据的输入维度 1,然而对于另外一些场景,像多示例学习(Multiple instance learning),输入是一个实例集合(a set of instances),label与整个集合相关。 这里有两个关键点,一个是置换不变(permutation invariant),另一个是输入的大小可以任意。而这两点对于传统的神经网络是较难去处理的,RNN系列虽然可以处理输入大小不一致的情况,但是对输入序列的顺序会原创 2020-08-28 09:01:01 · 4118 阅读 · 2 评论 -
【ACM2020】少样本学习综述
文章目录核心问题少样本学习的解决办法文献参考核心问题 机器学习中很大一部分的核心问题都在于误差分析,少样本也不例外,最核心的东西就是对误差的分析。按照机器学习的方式将few shot learning中的误差进行分解,然后进行分析。 给定假设hypothesis hhh,机器学习要做的事情就是最小化期望风险(expected risk) RRR:R(h)=∫ℓ(h(x),y)dp(x,y)=E[ℓ(h(x),y)]R(h)=\int \ell(h(x), y) d p(x, y)=\mathbb原创 2020-08-28 11:09:23 · 1447 阅读 · 0 评论 -
【5分钟Paper】Fast强化学习和Slow强化学习
文章目录所解决的问题背景所采用的方法?取得的效果?所出版信息?作者信息?论文标题:Fast Reinforcement Learning Via Slow Reinforcement Learning所解决的问题 让RL学地更快一点。背景 动物可以很快学习一些事情,而强化学习需要大量的试错实验。贝叶斯强化学习算法可以引入先验知识,但是在稍微复杂一点的情况下的更新是很困难的。所...原创 2020-04-20 17:22:13 · 935 阅读 · 0 评论 -
谷歌大脑阿尔伯塔联合发表:离线强化学习的优化视角【附代码】
文章目录所解决的问题背景所采用的方法?Ensemble-DQNRandom Ensemble Mixture (REM)取得的效果?所出版信息?作者信息?参考资料论文题目:An Optimistic Perspective on Offline Reinforcement Learning所解决的问题 提出一种基于基于DQN replay dataset的offline强化学习算法。...原创 2020-07-31 14:17:08 · 934 阅读 · 1 评论 -
【RL-GAN-Net】强化学习控制GAN网络,用于实时点云形状的补全。
文章目录所解决的问题背景所采用的方法?取得的效果?所出版信息?作者信息?参考资料论文题目:RL-GAN-Net: A Reinforcement Learning Agent Controlled GAN Network for Real-Time Point Cloud Shape Completion所解决的问题 用强化学习控制GAN网络,以使得GAN更快,更鲁棒。将其用于点云数...原创 2020-04-18 18:33:09 · 2512 阅读 · 1 评论 -
【ICLR2020】看未知观测:一种简单的蒙特卡洛并行化方法
文章目录所解决的问题背景MCTS经典的MCTS并行方法所采用的方法?取得的效果?所出版信息?作者信息?参考资料论文题目:Watch The Unobserved:A Simple Approach To Parallelizing Monte Carlo Tree Search所解决的问题 提出一种并行化的MCTS算法,该算法实现了线性加速,并随着Workers的增加,性能只有些许损...原创 2020-07-31 14:17:52 · 956 阅读 · 1 评论 -
【NIPS 2017】基于深度强化学习的想象力增强智能体
论文题目:Imagination-Augmented Agents for Deep Reinforcement Learning所解决的问题?背景所采用的方法?取得的效果?所出版信息?作者信息?原创 2020-04-15 17:06:41 · 320 阅读 · 0 评论 -
【NIPS 2018】循环World模型促进策略演变
论文题目:Recurrent World Models Facilitate Policy Evolution所解决的问题?从world model中学一个policy,并将迁移到real world。背景人类通常是通过自己的感官数据建立自己对这个世界的认知模型。比如看同一张图片,不同的人能够得到不同的抽象理解,而这个理解跟他自己之前建立的世界观存在相关性。这种对世界的认知能够帮助我...原创 2020-04-14 19:15:21 · 485 阅读 · 0 评论 -
【CoRL 2018】通过元策略优化的MBRL算法
论文题目:Recurrent World Models Facilitate Policy Evolution所解决的问题?从world model中学一个policy,并将迁移到real world。背景人类可以很容易学习到这个所采用的方法?取得的效果?所出版信息?作者信息?其它参考链接官方网页介绍:https://worldmodels.github.io/...原创 2020-07-31 14:20:51 · 498 阅读 · 1 评论 -
伯克利,斯坦福,宾大联合发表:从观察和交互中学习预测模型
论文题目:Learning Predictive Models From Observation and Interaction所解决的问题?作者在这里所关心的是,智能体采样很难采样到那些表现性能比较好的样本,就是说有些状态动作对根本就采不到,因为很难去学习这么好的策略,但是人类可以很轻松的采样得到这些样本。但是这些样本也是存在一些问题的,比如是没有带注释的,他不会有描述说为什么这么做,...原创 2020-07-31 14:18:10 · 486 阅读 · 1 评论 -
【ICLR2020】基于模型的强化学习算法玩Atari【附代码】
论文题目:Model Based Reinforcement Learning for Atari所解决的问题? model-free的强化学习算法已经在Atari游戏上取得了巨大成功,但是与人类选手相比,model-free的强化学习算法需要的交互数据往往大地多。其根本原因在于人类选手能够很容易学习到游戏的大概运行规律,从而进行预测规划。因此为了达到用少量数据学习控制Atari游戏的...原创 2021-01-24 20:15:09 · 2396 阅读 · 0 评论 -
【ICLR 2018】模型集成的TRPO算法【附代码】
论文题目:Model-Based Reinforcement Learning via Meta-Policy Optimization所解决的问题? 提出一种不依赖于learned dynamic model精度的学习算法Model-Based Meta-Policy-Optimization (MB-MPO),。同样是使用emsemble的方法集成learned model,然后用...原创 2020-07-31 14:20:45 · 772 阅读 · 1 评论 -
【5分钟paper】基于强化学习的策略搜索算法的自主直升机控制
论文题目:Autonomous Helicopter Control using Reinforcement Learning Policy Search Methods所解决的问题? 将策略搜索方法用于直升机控制(外环控制)。并建立了一个对所学得的model鲁棒性更强的框架。背景 传统的基于模型的强化学习算法make a certainty equivalence assump...原创 2020-04-14 19:19:23 · 311 阅读 · 0 评论 -
【NeurIPS 2019】最大熵的蒙特卡洛规划算法
论文题目:Maximum Entropy Monte-Carlo Planning所解决的问题?作者提出了一个新的stochastic softmax bandit框架;将其扩展到MCTS上,得到了Maximum Entropy for Tree Search (MENTS)算法。 将softmax state value引入,在back-propaganda过程中会更容易收敛...原创 2020-07-31 14:21:07 · 629 阅读 · 2 评论 -
【Science】颠覆三观的超强聚类算法
这篇文章是自己在上大数据分析课程时老师推荐的一篇文章,当时自己听着也是对原作者当年的的思路新奇非常敬佩,相信很多伙伴也会非常感兴趣,就来做个分享吧。原论文于2014年发表于Science期刊杂志上。论文题目:Clustering by fast search and find of density peaks所解决的问题? 作者提出了一种更加强大的聚类算法,其对参数的依赖更少,泛...原创 2020-03-18 05:47:03 · 787 阅读 · 2 评论 -
【ICLR2020】通过强化学习和稀疏奖励进行模仿学习
论文题目:SQIL: Imitation Learning via Reinforcement Learning with Sparse Rewards所解决的问题? 从高维的状态动作空间中进行模仿学习是比较困难的,以往的行为克隆算法(behavioral cloning BC)算法容易产生分布漂移(distribution shift),而最近做得比较好的就是生成对抗模仿学习算法(g...原创 2020-07-31 14:21:25 · 1251 阅读 · 1 评论 -
【5分钟 Paper】(TD3) Addressing Function Approximation Error in Actor-Critic Methods
论文题目:Addressing Function Approximation Error in Actor-Critic Methods所解决的问题? value-base的强化学习值函数的近似估计会过估计值函数(DQN),作者将Double Q-Learning处理过拟合的思想引入actor critic算法中。(过估计的问题就在于累计误差会使得某些不好的state的value变地很...原创 2020-07-31 14:21:59 · 979 阅读 · 1 评论 -
【5分钟 Paper】Continuous Control With Deep Reinforcement Learning
论文题目:Continuous Control With Deep Reinforcement Learning所解决的问题?背景所采用的方法?取得的效果?所出版信息?作者信息? 这篇文章是ICLR2016上面的一篇文章。第一作者TimothyP.Lillicrap是Google DeepMind的research Scientist。 Research focuses o...原创 2020-07-31 14:22:13 · 804 阅读 · 0 评论 -
【5分钟 Paper】Deterministic Policy Gradient Algorithms
论文题目:Deterministic Policy Gradient Algorithms所解决的问题? stochastic policy的方法由于含有部分随机,所以效率不高,方差大,采用deterministic policy方法比stochastic policy的采样效率高,但是没有办法探索环境,因此只能采用off-policy的方法来进行了。背景 以往的action是一...原创 2020-07-31 14:22:31 · 889 阅读 · 1 评论 -
【大规模深度强化学习(一) 】深度强化学习中的异步方法(A3C)
论文题目:Asynchronous Methods for Deep Reinforcement Learning所解决的问题? 在强化学习算法中agent所观测到的data是 non-stationary和strongly correlated的。通过设置memory的方式可以 reduces non-stationarity and decorrelates updates,但是会...原创 2020-02-29 21:06:12 · 1001 阅读 · 0 评论 -
【5分钟 Paper】Prioritized Experience Replay
论文题目:Prioritized Experience Replay所解决的问题? Experience replay能够让强化学习去考虑过去的一些经验,在这篇文章之前通常采用随机采样的方式在记忆库中采样。但是有一些记忆比较关键,因此随机采样的方式就不太好。作者提出了一种prioritizing experience的方式,来提高学习的效率。背景 之前的做法像DQN基本上都是从记...原创 2020-02-28 21:29:42 · 959 阅读 · 0 评论 -
【5分钟 Paper】Deep Reinforcement Learning with Double Q-learning
论文题目:Deep Reinforcement Learning with Double Q-learning所解决的问题? Q-Learning算法中存在动作值函数过估计(overestimate action values)的问题(因为其更新方程中包含一个maximization动作值函数的一项),那这样的过估计问题是否会对其算法性能有所影响呢?能不能去避免这样的一种过估计问题呢?...原创 2020-02-23 10:42:32 · 570 阅读 · 0 评论 -
【5分钟 Paper】Dueling Network Architectures for Deep Reinforcement Learning
论文题目:Dueling Network Architectures for Deep Reinforcement Learning所解决的问题? 主要贡献是提出了一种新的应用于强化学习的神经网络框架。背景 之前对强化学习的改进主要是集中在对现有的网络结构的改变,像什么引入卷积神经网络,LSTM和Autoencoder这些。而这篇文章是提出了一种新的神经网络结构更好地去适应mod...原创 2020-02-23 10:41:18 · 605 阅读 · 1 评论 -
【5分钟 Paper】Deep Recurrent Q-Learning for Partially Observable MDPs
论文题目:Deep Recurrent Q-Learning for Partially Observable MDPs 这篇论文最开始是15年提出来的,但最新的修订版本是17年的,下文所有内容都以17年版本为主。论文链接:https://arxiv.org/abs/1507.06527所解决的问题? 如题目中所述,作者解决的就是部分可观测马尔可夫决策过程 (Partiall...原创 2020-02-23 10:40:03 · 635 阅读 · 0 评论 -
【5分钟 Paper】Playing Atari with Deep Reinforcement Learning
论文题目:Playing Atari with Deep Reinforcement Learning所解决的问题? 解决从高维传感器获取数据而端到端实现控制的难题(以前很多都是使用手工提取的特征)。所使用的例子:直接用图像数据学会控制Atari游戏,并且达到了人类水平。背景 在这之前已经有很多研究工作是直接从高维数据直接获取输出结果的例子。如视觉和语音方面(文末参考文献中有具体...原创 2020-02-23 10:39:53 · 1133 阅读 · 0 评论 -
腾讯 “绝悟”论文披露技术细节。
我的微信公众号名称:AI研究订阅号微信公众号ID:MultiAgent1024公众号介绍:主要研究强化学习、计算机视觉、深度学习、机器学习等相关内容,分享学习过程中的学习笔记和心得!期待您的关注,欢迎一起学习交流进步!腾讯 “绝悟”论文披露技术细节。 这个算法运用强化学习框架,在多人在线战术竞技游戏(MOBA)中1v1击败职业选手。绝悟难在哪里? 谷歌DeepMind早在20...翻译 2019-12-24 23:13:26 · 1003 阅读 · 1 评论