- 博客(13)
- 资源 (15)
- 收藏
- 关注
原创 增强学习中的on-policy和off-policy的区别
首先说下观点:你估计policy或者value-function的时候,需要用到一些样本,这些样本也是需要采用某种策略(可能固定、可能完全随机、也可能隔一段时间调整一次)生成的。那么,判断on-policy和off-policy的关键在于,你所估计的policy或者value-function 和 你生成样本时所采用的policy 是不是一样。如果一样,那就是on-policy的,否则是
2017-02-27 14:13:00 29032 2
转载 深度增强学习前沿算法思想【DQN、A3C、UNREAL,简介】
http://mp.weixin.qq.com/s?__biz=MzA4Mzc0NjkwNA==&mid=2650782129&idx=1&sn=935f14d260eb9513f48e4abca05667f7&chksm=87fad086b08d5990a8cf80c97cd02875696857a3cd8d262948d29135d169fd62707c5376051b&mpshare=1&s
2017-02-16 20:29:32 13356 2
转载 RNN的四种变形:Attention and Augmented Recurrent Neural Networks【译文】
觉得总结的不错,所以记录一下。原文:http://distill.pub/2016/augmented-rnns/译文:http://geek.csdn.net/news/detail/106118递归神经网络是一种主流的深度学习模型,它可以用神经网络模型来处理序列化的数据,比如文本、音频和视频数据。它能把一个序列浓缩为抽象的理解,以此来表示这个序列,乃至新产生
2017-02-12 13:26:00 5693
转载 word2vector:NPLM、CBOW、Skip-gram
主要参考:http://www.cnblogs.com/Determined22/p/5804455.htmlhttp://www.cnblogs.com/Determined22/p/5807362.htmlhttp://blog.csdn.net/u014595019/article/details/51943428http://www.open-open.com/
2017-02-06 19:07:09 5539 1
转载 Analysis of 【Dropout】
原文:https://pgaleone.eu/deep-learning/regularization/2017/01/10/anaysis-of-dropout/这篇分析dropout的比较好,记录一下。译文在http://www.wtoutiao.com/p/649MGEJ.htmlOverfitting is a problem in Deep Neural Networ
2017-02-06 18:25:55 610
转载 增强学习中,exploration和exploitation时常用的action选择方法
http://blog.greenwicher.com/2016/12/24/drl-from_mab_to_mcts/基本算法具体的算法实施请见我的Github 或者 Bandit Algorithms for Website Optimization 这本书,下文只是简要叙述每种算法的思路。如日后有时间,再将各自的代码补上。值得一提的是,该领域主要的理论在于
2017-02-05 14:18:07 6103
转载 深入解读AlphaGo,Nature-2016:Mastering the game of Go with deep neural networks and tree search
主要参考:http://blog.csdn.net/songrotek/article/details/50610684http://studygolang.com/articles/6466http://www.360doc.com/content/16/0317/09/31057678_542874401.shtmlhttp://blog.csdn.net/u010
2017-02-03 19:21:55 2025
转载 LSTM对比GRU:Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling
先说结论:不论是machine translation还是music datasets、speech signal modeling,GRU和LSTM的performance差别不大,但GRU往往比LSTM训练时间短、收敛快。原文:http://blog.csdn.net/meanme/article/details/488457931.概要:
2017-02-03 17:18:21 1735
转载 目前看到的最好的RNN、LSTM、GRU博客:Understanding LSTM Networks(翻译)
原文:http://www.jianshu.com/p/9dc9f41f0b29本文译自 Christopher Olah 的博文Recurrent Neural Networks人类并不是每时每刻都从一片空白的大脑开始他们的思考。在你阅读这篇文章时候,你都是基于自己已经拥有的对先前所见词的理解来推断当前词的真实含义。我们不会将所有的东西都全部丢弃,
2017-02-03 17:11:42 8072 6
转载 目前看到的最好的RNN、LSTM、GRU博客:Understanding LSTM Networks
原文:http://colah.github.io/posts/2015-08-Understanding-LSTMs/Recurrent Neural NetworksHumans don’t start their thinking from scratch every second. As you read this essay, you unders
2017-02-03 17:08:50 4985
转载 Deep Q-Network,Nature-2015:Human-level control through deep reinforcement learning
感谢原作者的翻译与总结:http://blog.csdn.net/songrotek/article/details/50917286来源:Nature 2015作者:Deepmind理解基础:深度学习基础增强学习基础创新点:构建一个全新的Agent,基于Deep Q-network,能够直接从高维的原始输入数据中通过End-to-End
2017-02-03 15:19:11 2835
转载 Deep Reinforcement Learning 深度增强学习资源
多谢作者的总结:http://blog.csdn.net/songrotek/article/details/505729351 学习资料增强学习课程 David Silver (有视频和ppt):http://www0.cs.ucl.ac.uk/staff/D.Silver/web/Teaching.html最好的增强学习教材:
2017-02-03 15:11:53 1134
转载 Deep Q-Network,NIPS-2013:Playing Atari with Deep Reinforcement Learning
感谢作者的翻译与总结http://blog.csdn.net/songrotek/article/details/50581011来源:NIPS 2013作者:DeepMind理解基础:增强学习基本知识深度学习 特别是卷积神经网络的基本知识创新点:第一个将深度学习模型与增强学习结合在一起从而成功地直接从高维的输入学习控制策略具
2017-02-03 15:04:29 1947
dblp测试数据集
2016-03-26
entity linking源码
2016-01-17
机器学习数据集,20news-bydate.rar
2015-09-06
java读xml文件jar包
2015-08-22
javaweb连接数据库包mysql-connector-java-5.1.27-bin.jar
2015-08-15
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人