- 博客(9)
- 问答 (5)
- 收藏
- 关注
原创 重要性采样
之前再看pr DQN的时候,还有pg的时候都会说到重要性采样,尽管目前我对其应用还有一些疑惑。但是今天看了一篇博客,大概算是看懂了。转自https://blog.csdn.net/wangpeng138375/article/details/74645637下面是博客内容:简单直观因为我是做强化学习的,还有一个强化学习IS的连接https://blog.csdn.net/philthi...
2018-10-31 19:58:32 477
原创 Learning to Communicate with Deep Multi-Agent Reinforcement Learning
2017Nips的文章,看了一篇18的一篇相关方向的,但是没太明白,第一次看communicate的文章(multi-agent RL with communication),理解的也不太透彻。大概简要介绍一下:在MA的环境中,agent需要相互合作去完成任务,这个时候就需要agent之间相互交流,从而合作完成任务,之前的文章里都是没有agent间交流的。或者说是没有显示的定义出来这一...
2018-10-22 20:02:19 4727 8
原创 Learning Against Non-Stationary Agents withOpponent Modelling & Deep Reinforcement Learning
17年nips beach的文章,这个文章是通过为对手建模,然后更好的切换自己的对战策略的一个方法。这篇文章,主要是对里面不确定度有了很好的应用,才能正确的在不同的策略之间比较正确的切换。主要是对两种方式进行了实验:首先我们针对第一种来设计算法,而本文也是主要针对第一种情况进行的,第二种用来比较本文提出了SAM算法switching Agent Model首先我们逐步介绍他...
2018-10-17 16:47:30 772
原创 Factorized Q-Learning for Large-Scale Multi-Agent Systems
这篇是19年AAAI的文章。和我上一篇写的文章思想上很相似。主要还是解决大规模agent的合作或者竞争问题。这篇文章的灵感来源于被广泛用于推荐系统的(Rendle 2012; Rendle and Schmidt-Thieme 2010) ,我们通过为复杂的环境与agents之间的关系建模为高阶,高维向量,然后通过分解(Factorization)去拟合它更加具体的可以描述为,MAQ ...
2018-10-16 21:08:30 1389
原创 Mean Field Multi-Agent Reinforcement Learning
这是18 ICML的文章,文中的证明推理很多,主要借鉴一下思想。文章首先阐述了以前的一些找Nash平衡等方法对于大规模agent合作或者对抗的计算量要求很大。因此提出了这个算法。首先介绍了Stochastic Game的环境:第一个参数是状态空间,随后的N个参数是agent i的动作空间,在随后是agent i 的奖励函数,p是转移函数,y是折扣因子每个agent j 根据自己...
2018-10-16 17:16:03 6427 2
原创 Deep Reinforcement Learning Variants ofMulti-Agent Learning Algorithms
这是一个80页的论文,有效内容70页,10页reference。本篇论文主要介绍了两个算法,这篇论文写自2016年,也就是DQN发表一年后,所以这一年结合深度网络写rl的文章很多。下面我们就介绍一下本篇论文。我会摘取一些有用没用的大家都知道的以前的知识做铺垫。这篇文章主要讲述了两种算法,DRUQN(deep repeated update Q-network )和DLCQN(Deep ...
2018-10-10 19:19:56 832
原创 An Algorithm for Distributed Reinforement Learning in Cooperative Multi-Agent Systems
这篇文章是2000年发在ICML上的(如果我没记错的话),本篇博客主要是记录读后的总结,因为信息量比较大,只是混杂。区分两个概念:deterministic enviroment and stochastic enviroment:摘一段原文:随即环境下的区别是没有成熟的转移函数,所有的状态转移全都是互相独立运行的。在deterministic enviroment下:Q表的...
2018-10-07 23:04:58 820 1
原创 强化学习R&R总结
今天在看蒙特卡洛搜索树的时候,看到了UCB(upper confident bound),然后顺眼查到了一些其他很有趣的算法,在这里特意记录一下。这些算法主要都是针对更好的平衡探索与利用而开发出来的。第一个 e贪婪这个我就不展开解释了。应用的范围太广了,而且很多情况下比较依赖于e的取值第二种 SoftMax算法:以k摇臂赌博机为例子,SoftMax是对探索与利用的一个折中的方法,若...
2018-10-05 17:00:01 1788
空空如也
caffe 数据处理时imread问题
2018-03-01
caffe的python接口问题
2018-02-21
Cmake的编译caffe的cmd文件问题
2018-02-19
Python中调用theano库的问题
2018-02-17
python中的Random问题
2018-02-12
TA创建的收藏夹 TA关注的收藏夹
TA关注的人