自创-CRBM 玩flappy bird

最新推荐文章于 2018-06-27 10:59:49 发布

PeaceInMind

最新推荐文章于 2018-06-27 10:59:49 发布

阅读量1.7k

点赞数 1

本文链接：https://blog.csdn.net/peaceinmind/article/details/50448221

版权

图像专栏收录该内容

24 篇文章 1 订阅

订阅专栏

1 导语

这个实验是14年上半年在公司实习做的，很多都已经忘记了，就基本参考以前的总结写在这。用机器学习去玩游戏最牛掰的当属google deep mind的DRL[1]系列，这个是完全图像输入，我等也只能膜拜的份。博主这个实验是用的是人工特征，因此与DRL不可同日而语，效果也不是很好，不过个人觉得这个实验还是挺有趣的，又没有license的问题，所以在这里分享给大家。这里面的思想很简单，就是得到鸟的位置然后送入到CRBM网络去学习当前适合是否要点击屏幕。

2 数据采集

大家都知道flappy bird特别难，那要怎么采集学习数据呢。2014年初的时候有两哥们做了一个机械臂去玩flappy bird[2], 博主的这部分工作比他们晚点，但技术上是独立的。我也做了一个状态机去玩flappy bird来采数据，效果还挺好，最高能到200多分。

3 RBM

本来不太想介绍RBM的，但是为了CRBM统一符号，因此在这里简要介绍RBM，这部分不太形象，有点偏论文你们可以参考网上其他的文章，可能要通俗易懂些。由于个人比较懒，参考文献都已以前的文档为准，所有可能文献标号会不连续，另外有些术语有可能在我文档其他部分引用了相应的参考文献，但这部分没有引用，非常抱歉。

RBM的内容主要以Bengio文献[52]为基础。

（1）限制波尔兹曼机

4 CRBM

5 实验结果

印象中最高分是18分。

[1]Mnih V, Kavukcuoglu K,Silver D, et al. Human-level control through deep reinforcement learning[J].Nature, 2015, 518(7540): 529-533.

[2]Robot to play Flyppy Bird. http://cloudteastudio.com/bird.html

[28]Hinton G E, Osindero S, TehY W. A fast learning algorithm for deep belief nets[J]. Neural computation,2006, 18(7): 1527-1554.

[36]Bengio Y, Lamblin P,Popovici D, et al. Greedy layer-wise training of deep networks[J]. Advances inneural information processing systems, 2007, 19: 153.

[52]Bengio Y. Learning deeparchitectures for AI[J]. Foundations and trends® in Machine Learning, 2009,2(1): 1-127

[53]Nair V, Hinton G E.Rectified linear units improve restricted boltzmann machines[C].Proceedings ofthe 27th International Conference on Machine Learning (ICML-10). 2010: 807-814

[54]Le Roux N, Bengio Y.Representational power of restricted Boltzmann machines and deep beliefnetworks[J]. Neural Computation, 2008, 20(6): 1631-1649.

[55]Carreira-Perpinan M A,Hinton G E. On contrastive divergence learning[C].Artificial Intelligence andStatistics. 2005, 2005: 17.

[56]Tang Y, Sutskever I. Datanormalization in the learning of restricted Boltzmann machines[R]. TechnicalReport UTML-TR-11-2, Department of Computer Science, University of Toronto,2011.

[68]Spiliopoulou A.Investigation of Deep CRBM Networks in modeling Sequential Data[J].

PeaceInMind

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
自创-CRBM 玩flappy bird

1 导语这个实验是14年上半年在公司实习做的，很多都已经忘记了，就基本参考以前的总结写在这。用机器学习去玩游戏最牛掰的当属google deep mind的DRL[1]系列，这个是完全图像输入，我等也只能膜拜的份。博主这个实验是用的是人工特征，因此与DRL不可同日而语，效果也不是很好，不过个人觉得这个实验还是挺有趣的，又没有license的问题，所以在这里分享给大家。这里面的思想很简单，就是得...
复制链接

扫一扫

专栏目录