自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 (零基础可以看懂)深度强化学习之DQN类算法之第2篇-2015年Nature版本的DQN(含代码)-《强化学习系列专栏第5篇》

(零基础可以看懂)深度强化学习之DQN类算法之第2篇-2015年Nature版本的DQN(含代码)-《强化学习系列专栏第5篇》背景论文原文链接介绍模型关键部分解释代码跑的结果展示代码代码复现、详细讲解及我的Github地址背景    这一篇是DeepMind团队经过对2013版本的DQN改造后,在Nature上发表的,也就是业界称的Nature版本的DQN。这个模型和2013版本的区别是,该版本使用了两个网络,一个网络叫main network,另一个网络叫target network。论文原文链接

2020-11-20 16:02:09 2415 1

原创 (零基础可以看懂)深度强化学习之DQN类算法之第1篇-2013年NeurIPS版本的DQN(含代码)-《强化学习系列专栏第4篇》

(零基础可以看懂)深度强化学习之DQN类算法-第1篇(含代码)-《强化学习系列专栏第4篇》背景论文原文链接介绍模型关键部分解释代码代码复现、详细讲解及我的Github地址背景    DQN是由Deep Q-Learning缩写而来。从名字中可以看出,其本质上还是一种Q-Learning算法,只不过结合了深度学习。2013年的时候,位于伦敦的DeepMind(现在已经被谷歌收购了,也就是Alpha Go的父母)在NeurIPS发表了一篇名为《Playing Atari with Deep Reinforc

2020-10-14 21:38:05 1330 1

原创 (零基础可以看懂)强化学习中的时间差分算法(含代码)-《强化学习系列专栏第3篇》

(零基础可以看懂)强化学习中的时间差分算法(含代码)-《强化学习系列专栏第3篇》介绍SARSA的介绍前置知识:蒙特卡罗算法优化SARSA走方格游戏例子代码介绍    有了蒙特卡罗算法后,我们会想,蒙特卡罗算法每次都需要采样大量的幕,并且每一幕结束后,我们才可以训练策略。那有没有更快的训练方法,使得不需要等待采样一幕数据后,才进行迭代更新呢?更细化的说,能否每走一步,就立马进行迭代更新呢?答案是可以的。下面我们介绍两种算法,一种是SARSA,另一种是Q-learning。SARSA的介绍前置知识:蒙特

2020-10-11 19:32:13 714 2

原创 (零基础可以看懂)强化学习中的蒙特卡罗应用(贝尔曼方程)(含代码)-《强化学习系列专栏第2篇》

(零基础可以看懂)强化学习中的蒙特卡洛应用(贝尔曼方程)(含代码)-《强化学习系列专栏第2篇》介绍蒙特卡罗方法的介绍First-Visit Monte-Carlo Policy Evaluation(首次访问型蒙特卡罗策略估计)Every-Visit Monte-Carlo Policy Evaluation(每次访问型蒙特卡罗策略估计)代码复现、详细讲解及我的Github地址介绍    蒙特卡罗方法,简单一句话来理解,就是基于大数定律,使用采样的方式来估算分布。应用在强化学习中,更多的是将复杂环境的模

2020-10-11 19:28:59 1406

原创 (零基础可以看懂)强化学习中的动态规划(贝尔曼方程)(含代码)-《强化学习系列专栏第1篇》

(零基础可以看懂)强化学习中的动态规划(贝尔曼方程)(含代码)-《强化学习系列》介绍动态规划求解模型参数近似方法求解最优状态贝尔曼方程和最优动作贝尔曼方程代码复现、详细讲解及我的Github地址介绍    首先简单介绍下强化学习模型是干什么用的,强化学习模型其实就是一种做事情的策略或者方法,可以理解成一种做事的步骤。强化学习模型会基于当前的情形(确切地说,在强化学习模型里面叫做环境),做出可以获得最大收益的行为。举个例子来说,强化学习模型可以应用在自动驾驶里面,因为自动驾驶的系统可以等价于在当前的情形下

2020-10-11 19:26:57 3586 1

原创 第5篇-《Attention Is All You Need》

《Attention Is All You Need》阅读心得分享论文原文链接论文导读序列模型介绍论文原文链接《Attention Is All You Need》论文导读序列模型介绍    NLP领域里,有很多序列问题。比如语音识别、机器翻译、情感分类、图片描述、摘要生成、问答系统等等。    那什么叫做序列模型呢?我认为序列模型应该指的是输入和输出的数据均为序列的模型。序列模型会将...

2019-10-24 21:18:59 309

原创 第4篇-《Neural Machine Translation by Jointly Learning To Align and Translate》(基于attention机制神经机器翻译)精读分享

《Neural Machine Translation by Jointly Learning To Align and Translate》阅读心得分享论文原文链接论文导读论文abstract和introduction论文原文链接《Neural Machine Translation by Jointly Learning To Align and Translate》论文导读论文abs...

2019-10-09 08:53:13 972 7

原创 第3篇-《Distributed Representations of Sentences and Documents》(即Doc2vec)精读分享

《Distributed Representations of Sentences and Documents》阅读心得分享论文原文链接论文导读句子分布式表示句子分布式表示的历史模型论文原文链接《Distributed Representations of Sentences and Documents》论文导读句子分布式表示    什么叫做句子的分布式表示?顾名思义,和词的分布式表示一...

2019-09-26 23:04:22 598 1

原创 开启记录论文阅读、理解、实现的分享之旅

背景由于自己平时会阅读论文,因此特地写一个博客来记录自己对论文的理解,实现(或者讲解别人的代码)来提升对论文的理解。同时也以这种方式防止时间久了,就忘记了论文在讲什么了(希望可以看到自己写的解释,能够快速的回忆起来)。目录论文1标题-----链接地址论文2标题-----链接地址结束语...

2019-09-25 17:33:29 130

原创 第2篇-《Efficient Estimation of Word Representations in Vector Space》(即word2vec原始论文)阅读心得分享

《Efficient Estimation of Word Representations in Vector Space》(即word2vec原始论文)阅读心得分享论文原文链接论文原文链接link[]

2019-09-23 08:41:17 2024 5

原创 第1篇-《Deep Learning》阅读心得分享(包括反向传播公式推导)

这里写自d定义目录标题欢迎使用Markdown编辑器反向传播算法推导功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢...

2019-09-08 00:21:43 572 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除