自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 问答 (5)
  • 收藏
  • 关注

原创 重要性采样

之前再看pr DQN的时候,还有pg的时候都会说到重要性采样,尽管目前我对其应用还有一些疑惑。但是今天看了一篇博客,大概算是看懂了。转自https://blog.csdn.net/wangpeng138375/article/details/74645637下面是博客内容:简单直观因为我是做强化学习的,还有一个强化学习IS的连接https://blog.csdn.net/philthi...

2018-10-31 19:58:32 477

原创 强化学习基本算法总结

总结转发也可以直接去看李弘毅的RL课程,这个总结就是来自他的课程。

2018-10-30 16:21:02 616

原创 Learning to Communicate with Deep Multi-Agent Reinforcement Learning

2017Nips的文章,看了一篇18的一篇相关方向的,但是没太明白,第一次看communicate的文章(multi-agent RL with communication),理解的也不太透彻。大概简要介绍一下:在MA的环境中,agent需要相互合作去完成任务,这个时候就需要agent之间相互交流,从而合作完成任务,之前的文章里都是没有agent间交流的。或者说是没有显示的定义出来这一...

2018-10-22 20:02:19 4727 8

原创 Learning Against Non-Stationary Agents withOpponent Modelling & Deep Reinforcement Learning

17年nips beach的文章,这个文章是通过为对手建模,然后更好的切换自己的对战策略的一个方法。这篇文章,主要是对里面不确定度有了很好的应用,才能正确的在不同的策略之间比较正确的切换。主要是对两种方式进行了实验:首先我们针对第一种来设计算法,而本文也是主要针对第一种情况进行的,第二种用来比较本文提出了SAM算法switching Agent Model首先我们逐步介绍他...

2018-10-17 16:47:30 772

原创 Factorized Q-Learning for Large-Scale Multi-Agent Systems

这篇是19年AAAI的文章。和我上一篇写的文章思想上很相似。主要还是解决大规模agent的合作或者竞争问题。这篇文章的灵感来源于被广泛用于推荐系统的(Rendle 2012; Rendle and Schmidt-Thieme 2010) ,我们通过为复杂的环境与agents之间的关系建模为高阶,高维向量,然后通过分解(Factorization)去拟合它更加具体的可以描述为,MAQ ...

2018-10-16 21:08:30 1389

原创 Mean Field Multi-Agent Reinforcement Learning

这是18 ICML的文章,文中的证明推理很多,主要借鉴一下思想。文章首先阐述了以前的一些找Nash平衡等方法对于大规模agent合作或者对抗的计算量要求很大。因此提出了这个算法。首先介绍了Stochastic Game的环境:第一个参数是状态空间,随后的N个参数是agent i的动作空间,在随后是agent i 的奖励函数,p是转移函数,y是折扣因子每个agent j 根据自己...

2018-10-16 17:16:03 6427 2

原创 Deep Reinforcement Learning Variants ofMulti-Agent Learning Algorithms

这是一个80页的论文,有效内容70页,10页reference。本篇论文主要介绍了两个算法,这篇论文写自2016年,也就是DQN发表一年后,所以这一年结合深度网络写rl的文章很多。下面我们就介绍一下本篇论文。我会摘取一些有用没用的大家都知道的以前的知识做铺垫。这篇文章主要讲述了两种算法,DRUQN(deep repeated update Q-network )和DLCQN(Deep ...

2018-10-10 19:19:56 832

原创 An Algorithm for Distributed Reinforement Learning in Cooperative Multi-Agent Systems

这篇文章是2000年发在ICML上的(如果我没记错的话),本篇博客主要是记录读后的总结,因为信息量比较大,只是混杂。区分两个概念:deterministic enviroment and  stochastic enviroment:摘一段原文:随即环境下的区别是没有成熟的转移函数,所有的状态转移全都是互相独立运行的。在deterministic enviroment下:Q表的...

2018-10-07 23:04:58 820 1

原创 强化学习R&R总结

今天在看蒙特卡洛搜索树的时候,看到了UCB(upper confident bound),然后顺眼查到了一些其他很有趣的算法,在这里特意记录一下。这些算法主要都是针对更好的平衡探索与利用而开发出来的。第一个 e贪婪这个我就不展开解释了。应用的范围太广了,而且很多情况下比较依赖于e的取值第二种 SoftMax算法:以k摇臂赌博机为例子,SoftMax是对探索与利用的一个折中的方法,若...

2018-10-05 17:00:01 1788

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除