张小李-CSDN博客

原创（零基础可以看懂）深度强化学习之DQN类算法之第2篇-2015年Nature版本的DQN（含代码）-《强化学习系列专栏第5篇》

（零基础可以看懂）深度强化学习之DQN类算法之第2篇-2015年Nature版本的DQN（含代码）-《强化学习系列专栏第5篇》背景论文原文链接介绍模型关键部分解释代码跑的结果展示代码代码复现、详细讲解及我的Github地址背景这一篇是DeepMind团队经过对2013版本的DQN改造后，在Nature上发表的，也就是业界称的Nature版本的DQN。这个模型和2013版本的区别是，该版本使用了两个网络，一个网络叫main network，另一个网络叫target network。论文原文链接

2020-11-20 16:02:09 2428 1

原创（零基础可以看懂）深度强化学习之DQN类算法之第1篇-2013年NeurIPS版本的DQN（含代码）-《强化学习系列专栏第4篇》

（零基础可以看懂）深度强化学习之DQN类算法-第1篇（含代码）-《强化学习系列专栏第4篇》背景论文原文链接介绍模型关键部分解释代码代码复现、详细讲解及我的Github地址背景 DQN是由Deep Q-Learning缩写而来。从名字中可以看出，其本质上还是一种Q-Learning算法，只不过结合了深度学习。2013年的时候，位于伦敦的DeepMind（现在已经被谷歌收购了，也就是Alpha Go的父母）在NeurIPS发表了一篇名为《Playing Atari with Deep Reinforc

2020-10-14 21:38:05 1339 1

Haitaifantuan

原创（零基础可以看懂）深度强化学习之DQN类算法之第2篇-2015年Nature版本的DQN（含代码）-《强化学习系列专栏第5篇》

原创（零基础可以看懂）深度强化学习之DQN类算法之第1篇-2013年NeurIPS版本的DQN（含代码）-《强化学习系列专栏第4篇》

原创（零基础可以看懂）强化学习中的时间差分算法（含代码）-《强化学习系列专栏第3篇》

原创（零基础可以看懂）强化学习中的蒙特卡罗应用（贝尔曼方程）（含代码）-《强化学习系列专栏第2篇》

原创（零基础可以看懂）强化学习中的动态规划（贝尔曼方程）（含代码）-《强化学习系列专栏第1篇》

原创第5篇-《Attention Is All You Need》

原创第4篇-《Neural Machine Translation by Jointly Learning To Align and Translate》（基于attention机制神经机器翻译）精读分享

原创第3篇-《Distributed Representations of Sentences and Documents》（即Doc2vec）精读分享

原创开启记录论文阅读、理解、实现的分享之旅

原创第2篇-《Efficient Estimation of Word Representations in Vector Space》（即word2vec原始论文）阅读心得分享

原创第1篇-《Deep Learning》阅读心得分享（包括反向传播公式推导）

空空如也

空空如也