强化学习R&R
这梦想不休不止
这个作者很懒,什么都没留下…
展开
-
强化学习R&R总结
今天在看蒙特卡洛搜索树的时候,看到了UCB(upper confident bound),然后顺眼查到了一些其他很有趣的算法,在这里特意记录一下。这些算法主要都是针对更好的平衡探索与利用而开发出来的。第一个 e贪婪这个我就不展开解释了。应用的范围太广了,而且很多情况下比较依赖于e的取值第二种 SoftMax算法:以k摇臂赌博机为例子,SoftMax是对探索与利用的一个折中的方法,若...原创 2018-10-05 17:00:01 · 1792 阅读 · 0 评论 -
Learning Against Non-Stationary Agents withOpponent Modelling & Deep Reinforcement Learning
17年nips beach的文章,这个文章是通过为对手建模,然后更好的切换自己的对战策略的一个方法。这篇文章,主要是对里面不确定度有了很好的应用,才能正确的在不同的策略之间比较正确的切换。主要是对两种方式进行了实验:首先我们针对第一种来设计算法,而本文也是主要针对第一种情况进行的,第二种用来比较本文提出了SAM算法switching Agent Model首先我们逐步介绍他...原创 2018-10-17 16:47:30 · 774 阅读 · 0 评论 -
Learning to Communicate with Deep Multi-Agent Reinforcement Learning
2017Nips的文章,看了一篇18的一篇相关方向的,但是没太明白,第一次看communicate的文章(multi-agent RL with communication),理解的也不太透彻。大概简要介绍一下:在MA的环境中,agent需要相互合作去完成任务,这个时候就需要agent之间相互交流,从而合作完成任务,之前的文章里都是没有agent间交流的。或者说是没有显示的定义出来这一...原创 2018-10-22 20:02:19 · 4737 阅读 · 8 评论