强化学习
琥珀彩
这个作者很懒,什么都没留下…
展开
-
n-armed bandit problem
1、实验的目的 这个实验的目的是想说明,只要一个action被选择的次数足够多,其Qt(a)就会收敛到Qt*(a),即,该action的action value。而使用ε-greedy算法,能够最终找到action value最大的那个action。2、仿真实验过程 首先要明白,凡是仿真,都是要重复实验的,最主要的目的是降低随机性的影响,尽管这个n-armed bandit转载 2016-02-22 16:46:25 · 724 阅读 · 0 评论 -
强化学习向光连接资料
1 学习资料增强学习课程 David Silver (有视频和ppt):http://www0.cs.ucl.ac.uk/staff/D.Silver/web/Teaching.html最好的增强学习教材:Reinforcement Learning: An Introductionhttps://webdocs.cs.ualberta.ca/~sutton/book/转载 2016-04-12 16:54:08 · 476 阅读 · 0 评论 -
深度强化学习向光资料--转载
深度强化学习(Deep Reinforcement Learning)的资源 下载LOFTER我的照片书 | Google的Deep Mind团队2013年在NIPS上发表了一篇牛x闪闪的文章,亮瞎了好多人眼睛,不幸的是我也在其中。前一段时间收集了好多关于这方面的资料,一直躺在收藏夹中,目前正在做一些相关的工作(希望有小伙转载 2016-04-12 16:57:18 · 509 阅读 · 0 评论 -
vs&matlab混合编程-- - mexw64
转载:http://blog.csdn.net/wak0408/article/details/38272163这个文章的流程是,在vs里面生成matlab可以读懂的文件(mexw**),当然也可以在matlab里面编译 .c/.cpp,直接生成(mexw**),matlab的.m文件就可以直接调用了。vs&matlab混合编程,例如文章最后的两个参考文献,但是参考文献都是转载 2016-11-13 11:19:21 · 4340 阅读 · 0 评论