2018年10月_这梦想不休不止

12月 11月 10月 07月 06月 05月 04月 03月 02月

原创重要性采样

之前再看pr DQN的时候，还有pg的时候都会说到重要性采样，尽管目前我对其应用还有一些疑惑。但是今天看了一篇博客，大概算是看懂了。转自https://blog.csdn.net/wangpeng138375/article/details/74645637下面是博客内容：简单直观因为我是做强化学习的，还有一个强化学习IS的连接https://blog.csdn.net/philthi...

2018-10-31 19:58:32 477

原创强化学习基本算法总结

总结转发也可以直接去看李弘毅的RL课程，这个总结就是来自他的课程。

2018-10-30 16:21:02 616

原创 Learning to Communicate with Deep Multi-Agent Reinforcement Learning

2017Nips的文章，看了一篇18的一篇相关方向的，但是没太明白，第一次看communicate的文章（multi-agent RL with communication），理解的也不太透彻。大概简要介绍一下：在MA的环境中，agent需要相互合作去完成任务，这个时候就需要agent之间相互交流，从而合作完成任务，之前的文章里都是没有agent间交流的。或者说是没有显示的定义出来这一...

2018-10-22 20:02:19 4727 8

原创 Learning Against Non-Stationary Agents withOpponent Modelling & Deep Reinforcement Learning

17年nips beach的文章，这个文章是通过为对手建模，然后更好的切换自己的对战策略的一个方法。这篇文章，主要是对里面不确定度有了很好的应用，才能正确的在不同的策略之间比较正确的切换。主要是对两种方式进行了实验：首先我们针对第一种来设计算法，而本文也是主要针对第一种情况进行的，第二种用来比较本文提出了SAM算法switching Agent Model首先我们逐步介绍他...

2018-10-17 16:47:30 772

原创 Factorized Q-Learning for Large-Scale Multi-Agent Systems

这篇是19年AAAI的文章。和我上一篇写的文章思想上很相似。主要还是解决大规模agent的合作或者竞争问题。这篇文章的灵感来源于被广泛用于推荐系统的(Rendle 2012; Rendle and Schmidt-Thieme 2010) ，我们通过为复杂的环境与agents之间的关系建模为高阶，高维向量，然后通过分解（Factorization）去拟合它更加具体的可以描述为，MAQ ...

2018-10-16 21:08:30 1389

原创 Mean Field Multi-Agent Reinforcement Learning

这是18 ICML的文章，文中的证明推理很多，主要借鉴一下思想。文章首先阐述了以前的一些找Nash平衡等方法对于大规模agent合作或者对抗的计算量要求很大。因此提出了这个算法。首先介绍了Stochastic Game的环境：第一个参数是状态空间，随后的N个参数是agent i的动作空间，在随后是agent i 的奖励函数，p是转移函数，y是折扣因子每个agent j 根据自己...

2018-10-16 17:16:03 6427 2

原创 Deep Reinforcement Learning Variants ofMulti-Agent Learning Algorithms

这是一个80页的论文，有效内容70页，10页reference。本篇论文主要介绍了两个算法，这篇论文写自2016年，也就是DQN发表一年后，所以这一年结合深度网络写rl的文章很多。下面我们就介绍一下本篇论文。我会摘取一些有用没用的大家都知道的以前的知识做铺垫。这篇文章主要讲述了两种算法，DRUQN（deep repeated update Q-network ）和DLCQN（Deep ...

2018-10-10 19:19:56 832

原创 An Algorithm for Distributed Reinforement Learning in Cooperative Multi-Agent Systems

这篇文章是2000年发在ICML上的（如果我没记错的话），本篇博客主要是记录读后的总结，因为信息量比较大，只是混杂。区分两个概念：deterministic enviroment and stochastic enviroment:摘一段原文：随即环境下的区别是没有成熟的转移函数，所有的状态转移全都是互相独立运行的。在deterministic enviroment下：Q表的...

2018-10-07 23:04:58 820 1

原创强化学习R&R总结

今天在看蒙特卡洛搜索树的时候，看到了UCB(upper confident bound)，然后顺眼查到了一些其他很有趣的算法，在这里特意记录一下。这些算法主要都是针对更好的平衡探索与利用而开发出来的。第一个 e贪婪这个我就不展开解释了。应用的范围太广了，而且很多情况下比较依赖于e的取值第二种 SoftMax算法：以k摇臂赌博机为例子，SoftMax是对探索与利用的一个折中的方法，若...

2018-10-05 17:00:01 1788

TA关注的人

qq_36616268的博客

原创重要性采样

原创强化学习基本算法总结

原创 Learning to Communicate with Deep Multi-Agent Reinforcement Learning

原创 Learning Against Non-Stationary Agents withOpponent Modelling & Deep Reinforcement Learning

原创 Factorized Q-Learning for Large-Scale Multi-Agent Systems

原创 Mean Field Multi-Agent Reinforcement Learning

原创 Deep Reinforcement Learning Variants ofMulti-Agent Learning Algorithms

原创 An Algorithm for Distributed Reinforement Learning in Cooperative Multi-Agent Systems

原创强化学习R&R总结

空空如也

caffe 数据处理时imread问题

caffe的python接口问题

Cmake的编译caffe的cmd文件问题

Python中调用theano库的问题

python中的Random问题