自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 【李宏毅机器学习课程笔记(补)】深度强化学习(一)—— 深度强化学习浅析

前言:这篇笔记的内容按照强化学习部分正常的Learning Map来说,是应该放在PPO、Q-Learning等算法前面的,所以在标题这里加了一个(补),代表这篇笔记是后来补发的(学习的时候把笔记记到纸质本子上了…现在相当于誊写一遍,当然也有些当时没想到的或者手写起来不方便的内容)文章目录强化学习的应用场景Outline of RLPolicy-based 方法定义函数集合:NN as actor定义函数的好坏选择最优的Function强化学习的应用场景以下内容来自: LeeML-Notes.(这个网

2020-11-22 17:56:09 898 5

原创 【李宏毅机器学习课程笔记】深度强化学习(六)—— Imitation Learning

文章目录IntroductionBehavior CloningInverse Reinforcement Learning(IRL)为什么需要IRLIRL的思想IntroductionImitation learning 又称作 Learning by Demonstration 或 Apparenticeship Learning,它适用于解决那些无法定义或者量化reward,但能够收集到大量完成任务的过程范例作为学习资料的问题。Imitation Learning有两种具体的方法:Behavior

2020-11-20 17:33:29 674

原创 【李宏毅机器学习课程笔记】深度强化学习(五)—— Sparse Reward

文章目录IntroductionReward ShapingCuriosityCurriculum LearningHierarchical Reinforcement LearningIntroduction在使用Reinforcement Learning来构造agent时,多数情况下这个agent是得不到任何Reward的。这使得agent的训练变得非常困难。举例来说,假设我们制作了一个机械手臂,希望让它完成‘用桌上的螺丝刀把螺丝钉栓进去’这个任务,但agent起初是什么都不知道的,它能够完成各

2020-11-20 16:22:48 915

原创 【李宏毅机器学习课程笔记】深度强化学习(四)—— Actor-Critic

文章目录Asynchronous advantage actor-critic(A3C)Asynchronous advantage actor-critic(A3C)

2020-11-20 13:54:14 549

原创 【李宏毅机器学习课程笔记】深度强化学习(三)——Q-Learning

文章目录Q-Learning简介Tips for Q-LearningTypical Q-Learning AlgorithmQ-Learning for Continous ActionQ-Learning简介Q-Learning是强化学习中一种Value-Based的方法,它所学习的不是一个Policy,而是一个Critic,Critic并不直接采取行为,而是评价当前的行为是好的或者不好的;相关术语:State value function Vπ(s){V^\pi }(s)Vπ(s)这个f

2020-11-14 19:59:09 1071

原创 【李宏毅机器学习课程笔记】深度强化学习(二)——PPO(Proximal Policy Optimization)

这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Markdown编辑器你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Mar

2020-11-13 17:50:38 1053 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除