2017年02月_mmc2015

11月 09月 08月 07月 06月 05月 04月 03月 02月

原创增强学习中的on-policy和off-policy的区别

首先说下观点：你估计policy或者value-function的时候，需要用到一些样本，这些样本也是需要采用某种策略（可能固定、可能完全随机、也可能隔一段时间调整一次）生成的。那么，判断on-policy和off-policy的关键在于，你所估计的policy或者value-function 和你生成样本时所采用的policy 是不是一样。如果一样，那就是on-policy的，否则是

2017-02-27 14:13:00 29032 2

转载深度增强学习前沿算法思想【DQN、A3C、UNREAL，简介】

http://mp.weixin.qq.com/s?__biz=MzA4Mzc0NjkwNA==&mid=2650782129&idx=1&sn=935f14d260eb9513f48e4abca05667f7&chksm=87fad086b08d5990a8cf80c97cd02875696857a3cd8d262948d29135d169fd62707c5376051b&mpshare=1&s

2017-02-16 20:29:32 13356 2

转载 RNN的四种变形：Attention and Augmented Recurrent Neural Networks【译文】

觉得总结的不错，所以记录一下。原文：http://distill.pub/2016/augmented-rnns/译文：http://geek.csdn.net/news/detail/106118递归神经网络是一种主流的深度学习模型，它可以用神经网络模型来处理序列化的数据，比如文本、音频和视频数据。它能把一个序列浓缩为抽象的理解，以此来表示这个序列，乃至新产生

2017-02-12 13:26:00 5693

转载 word2vector：NPLM、CBOW、Skip-gram

主要参考：http://www.cnblogs.com/Determined22/p/5804455.htmlhttp://www.cnblogs.com/Determined22/p/5807362.htmlhttp://blog.csdn.net/u014595019/article/details/51943428http://www.open-open.com/

2017-02-06 19:07:09 5539 1

转载 Analysis of 【Dropout】

原文：https://pgaleone.eu/deep-learning/regularization/2017/01/10/anaysis-of-dropout/这篇分析dropout的比较好，记录一下。译文在http://www.wtoutiao.com/p/649MGEJ.htmlOverfitting is a problem in Deep Neural Networ

2017-02-06 18:25:55 610

转载增强学习中，exploration和exploitation时常用的action选择方法

http://blog.greenwicher.com/2016/12/24/drl-from_mab_to_mcts/基本算法具体的算法实施请见我的Github 或者 Bandit Algorithms for Website Optimization 这本书，下文只是简要叙述每种算法的思路。如日后有时间，再将各自的代码补上。值得一提的是，该领域主要的理论在于

2017-02-05 14:18:07 6103

转载深入解读AlphaGo，Nature-2016：Mastering the game of Go with deep neural networks and tree search

主要参考：http://blog.csdn.net/songrotek/article/details/50610684http://studygolang.com/articles/6466http://www.360doc.com/content/16/0317/09/31057678_542874401.shtmlhttp://blog.csdn.net/u010

2017-02-03 19:21:55 2025

转载 LSTM对比GRU：Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling

先说结论：不论是machine translation还是music datasets、speech signal modeling，GRU和LSTM的performance差别不大，但GRU往往比LSTM训练时间短、收敛快。原文：http://blog.csdn.net/meanme/article/details/488457931.概要：

2017-02-03 17:18:21 1735

转载目前看到的最好的RNN、LSTM、GRU博客：Understanding LSTM Networks（翻译）

原文：http://www.jianshu.com/p/9dc9f41f0b29本文译自 Christopher Olah 的博文Recurrent Neural Networks人类并不是每时每刻都从一片空白的大脑开始他们的思考。在你阅读这篇文章时候，你都是基于自己已经拥有的对先前所见词的理解来推断当前词的真实含义。我们不会将所有的东西都全部丢弃，

2017-02-03 17:11:42 8072 6

转载目前看到的最好的RNN、LSTM、GRU博客：Understanding LSTM Networks

原文：http://colah.github.io/posts/2015-08-Understanding-LSTMs/Recurrent Neural NetworksHumans don’t start their thinking from scratch every second. As you read this essay, you unders

2017-02-03 17:08:50 4985

转载 Deep Q-Network，Nature-2015：Human-level control through deep reinforcement learning

感谢原作者的翻译与总结：http://blog.csdn.net/songrotek/article/details/50917286来源：Nature 2015作者：Deepmind理解基础：深度学习基础增强学习基础创新点：构建一个全新的Agent，基于Deep Q-network,能够直接从高维的原始输入数据中通过End-to-End

2017-02-03 15:19:11 2835

转载 Deep Reinforcement Learning 深度增强学习资源

多谢作者的总结：http://blog.csdn.net/songrotek/article/details/505729351 学习资料增强学习课程 David Silver （有视频和ppt）:http://www0.cs.ucl.ac.uk/staff/D.Silver/web/Teaching.html最好的增强学习教材：

2017-02-03 15:11:53 1134

转载 Deep Q-Network，NIPS-2013：Playing Atari with Deep Reinforcement Learning

感谢作者的翻译与总结http://blog.csdn.net/songrotek/article/details/50581011来源：NIPS 2013作者：DeepMind理解基础：增强学习基本知识深度学习特别是卷积神经网络的基本知识创新点：第一个将深度学习模型与增强学习结合在一起从而成功地直接从高维的输入学习控制策略具

2017-02-03 15:04:29 1947

挖掘DBLP作者合作关系，FP-Growth算法实践

挖掘DBLP作者合作关系，FP-Growth算法实践包括三个代码，一堆结果文件

2017-04-07

Chrome_IE_driver_X64_X32.rar

Chrome_IE_driver 64位32位都有，很好用，已测试。

2016-11-07

dblp测试数据集

dblp测试数据集，包括十六个会议的【部分内容】，使用SDM, ICDM, ECML-PKDD, PAKDD, WSDM, DMKD, TKDE, KDD Explorations, ACM Trans. On KDD, CVPR, ICML, NIPS, COLT、 CVPR、SIGIR、SIGKDD 十六个会议，至少从2000年至今的所有数据。应用代码参考：http://blog.csdn.net/mmc2015/article/details/50988375 确实花了我很多时间搜集

2016-03-26