自创-CRBM 玩flappy bird

1 导语

这个实验是14年上半年在公司实习做的,很多都已经忘记了,就基本参考以前的总结写在这。用机器学习去玩游戏最牛掰的当属google deep mind的DRL[1]系列,这个是完全图像输入,我等也只能膜拜的份。博主这个实验是用的是人工特征,因此与DRL不可同日而语,效果也不是很好,不过个人觉得这个实验还是挺有趣的,又没有license的问题,所以在这里分享给大家。这里面的思想很简单,就是得到鸟的位置然后送入到CRBM网络去学习当前适合是否要点击屏幕。

2 数据采集

大家都知道flappy bird特别难,那要怎么采集学习数据呢。2014年初的时候有两哥们做了一个机械臂去玩flappy bird[2], 博主的这部分工作比他们晚点,但技术上是独立的。我也做了一个状态机去玩flappy bird来采数据,效果还挺好,最高能到200多分。

3 RBM

本来不太想介绍RBM的,但是为了CRBM统一符号,因此在这里简要介绍RBM,这部分不太形象,有点偏论文你们可以参考网上其他的文章,可能要通俗易懂些。由于个人比较懒,参考文献都已以前的文档为准,所有可能文献标号会不连续,另外有些术语有可能在我文档其他部分引用了相应的参考文献,但这部分没有引用,非常抱歉。

RBM的内容主要以Bengio文献[52]为基础。

(1) 限制波尔兹曼机

4 CRBM

5 实验结果

印象中最高分是18分。

 

[1]Mnih V, Kavukcuoglu K,Silver D, et al. Human-level control through deep reinforcement learning[J].Nature, 2015, 518(7540): 529-533.

[2]Robot to play Flyppy Bird. http://cloudteastudio.com/bird.html

[28]Hinton G E, Osindero S, TehY W. A fast learning algorithm for deep belief nets[J]. Neural computation,2006, 18(7): 1527-1554.

[36]Bengio Y, Lamblin P,Popovici D, et al. Greedy layer-wise training of deep networks[J]. Advances inneural information processing systems, 2007, 19: 153.

[52]Bengio Y. Learning deeparchitectures for AI[J]. Foundations and trends® in Machine Learning, 2009,2(1): 1-127

[53]Nair V, Hinton G E.Rectified linear units improve restricted boltzmann machines[C].Proceedings ofthe 27th International Conference on Machine Learning (ICML-10). 2010: 807-814

[54]Le Roux N, Bengio Y.Representational power of restricted Boltzmann machines and deep beliefnetworks[J]. Neural Computation, 2008, 20(6): 1631-1649.

[55]Carreira-Perpinan M A,Hinton G E. On contrastive divergence learning[C].Artificial Intelligence andStatistics. 2005, 2005: 17.

[56]Tang Y, Sutskever I. Datanormalization in the learning of restricted Boltzmann machines[R]. TechnicalReport UTML-TR-11-2, Department of Computer Science, University of Toronto,2011.

[68]Spiliopoulou A.Investigation of Deep CRBM Networks in modeling Sequential Data[J].

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值