自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

原创 强化学习笔记【12】DDPG

该系列主要是听李宏毅老师的《深度强化学习》过程中记下的一些听课心得,除了李宏毅老师的强化学习课程之外,为保证内容的完整性,我还参考了一些其他的课程,包括周博磊老师的《强化学习纲要》、李科浇老师的《百度强化学习》以及多个强化学习的经典资料作为补充。使用说明笔记【4】到笔记【11】为李宏毅《深度强化学习》的部分;笔记 【1】和笔记【2】根据《强化学习纲要》整理而来;笔记 【3】和笔记【12】根据《百度强化学习》整理而来。一、离散动作vs连续动作图1. 离散动作vs连续动作...

2021-08-07 11:58:11 2743 2

原创 强化学习笔记【11】模仿学习

该系列主要是听李宏毅老师的《深度强化学习》过程中记下的一些听课心得,除了李宏毅老师的强化学习课程之外,为保证内容的完整性,我还参考了一些其他的课程,包括周博磊老师的《强化学习纲要》、李科浇老师的《百度强化学习》以及多个强化学习的经典资料作为补充。使用说明笔记【4】到笔记【11】为李宏毅《深度强化学习》的部分;笔记 【1】和笔记【2】根据《强化学习纲要》整理而来;笔记 【3】和笔记【12】根据《百度强化学习》整理而来。如果在一个情景里面,我们连强化学习的奖励都无法得到,那我们该怎么办呢...

2021-08-07 11:50:24 351 1

原创 强化学习笔记【10】稀疏奖励

该系列主要是听李宏毅老师的《深度强化学习》过程中记下的一些听课心得,除了李宏毅老师的强化学习课程之外,为保证内容的完整性,我还参考了一些其他的课程,包括周博磊老师的《强化学习纲要》、李科浇老师的《百度强化学习》以及多个强化学习的经典资料作为补充。使用说明笔记【4】到笔记【11】为李宏毅《深度强化学习》的部分;笔记 【1】和笔记【2】根据《强化学习纲要》整理而来;笔记 【3】和笔记【12】根据《百度强化学习》整理而来。其实在强化学习的过程中,很多情况下,环境中的reward会非常稀疏,...

2021-08-07 11:46:34 630 1

原创 强化学习笔记【9】演员-评论家算法(Actor-Critic Algorithm)

该系列主要是听李宏毅老师的《深度强化学习》过程中记下的一些听课心得,除了李宏毅老师的强化学习课程之外,为保证内容的完整性,我还参考了一些其他的课程,包括周博磊老师的《强化学习纲要》、李科浇老师的《百度强化学习》以及多个强化学习的经典资料作为补充。使用说明笔记【4】到笔记【11】为李宏毅《深度强化学习》的部分;笔记 【1】和笔记【2】根据《强化学习纲要》整理而来;笔记 【3】和笔记【12】根据《百度强化学习》整理而来。演员-评论家算法(Actor-Critic Algorithm)是一...

2021-08-07 11:38:54 1407 1

原创 强化学习笔记【8】DQN连续动作

该系列主要是听李宏毅老师的《深度强化学习》过程中记下的一些听课心得,除了李宏毅老师的强化学习课程之外,为保证内容的完整性,我还参考了一些其他的课程,包括周博磊老师的《强化学习纲要》、李科浇老师的《百度强化学习》以及多个强化学习的经典资料作为补充。使用说明笔记【4】到笔记【11】为李宏毅《深度强化学习》的部分;笔记 【1】和笔记【2】根据《强化学习纲要》整理而来;笔记 【3】和笔记【12】根据《百度强化学习》整理而来。这一章的内容比较少,主要讲解了Q-learning在处理连续动作时的...

2021-08-04 21:46:25 1425 1

原创 强化学习笔记【7】DQN进阶技巧

该系列主要是听李宏毅老师的《深度强化学习》过程中记下的一些听课心得,除了李宏毅老师的强化学习课程之外,为保证内容的完整性,我还参考了一些其他的课程,包括周博磊老师的《强化学习纲要》、李科浇老师的《百度强化学习》以及多个强化学习的经典资料作为补充。使用说明笔记【4】到笔记【11】为李宏毅《深度强化学习》的部分;笔记 【1】和笔记【2】根据《强化学习纲要》整理而来;笔记 【3】和笔记【12】根据《百度强化学习》整理而来。本章介绍了在DQN基础上所做的六点改进:(1)Double D...

2021-08-03 20:24:31 523 1

原创 强化学习笔记【6】DQN基本概念

该系列主要是听李宏毅老师的《深度强化学习》过程中记下的一些听课心得,除了李宏毅老师的强化学习课程之外,为保证内容的完整性,我还参考了一些其他的课程,包括周博磊老师的《强化学习纲要》、李科浇老师的《百度强化学习》以及多个强化学习的经典资料作为补充。使用说明笔记【4】到笔记【11】为李宏毅《深度强化学习》的部分;笔记 【1】和笔记【2】根据《强化学习纲要》整理而来;笔记 【3】和笔记【12】根据《百度强化学习》整理而来。Q-learning是基于价值的强化学习方法,我们要学习的不是策略而...

2021-07-30 15:34:53 714 1

原创 强化学习笔记【5】近端策略优化(PPO)算法

该系列主要是听李宏毅老师的《深度强化学习》过程中记下的一些听课心得,除了李宏毅老师的强化学习课程之外,为保证内容的完整性,我还参考了一些其他的课程,包括周博磊老师的《强化学习纲要》、李科浇老师的《百度强化学习》以及多个强化学习的经典资料作为补充。使用说明笔记【4】到笔记【11】为李宏毅《深度强化学习》的部分;笔记 【1】和笔记【2】根据《强化学习纲要》整理而来;笔记 【3】和笔记【12】根据《百度强化学习》整理而来。一、相关术语(1)on-policy:要学习的agent跟与...

2021-07-29 12:37:47 2971 1

原创 强化学习笔记【4】策略梯度(Policy Gradient,PG)

该系列主要是听李宏毅老师的《深度强化学习》过程中记下的一些听课心得,除了李宏毅老师的强化学习课程之外,为保证内容的完整性,我还参考了一些其他的课程,包括周博磊老师的《强化学习纲要》、李科浇老师的《百度强化学习》以及多个强化学习的经典资料作为补充。使用说明笔记【4】到笔记【11】为李宏毅《深度强化学习》的部分;笔记 【1】和笔记【2】根据《强化学习纲要》整理而来;笔记 【3】和笔记【12】根据《百度强化学习》整理而来。这一节主要在前三章的基础上加入了一些新的知识点,以及介绍了策略梯度的...

2021-07-28 19:14:19 633 1

原创 强化学习笔记【3】表格型方法(tabular methods)

该系列主要是听李宏毅老师的《深度强化学习》过程中记下的一些听课心得,除了李宏毅老师的强化学习课程之外,为保证内容的完整性,我还参考了一些其他的课程,包括周博磊老师的《强化学习纲要》、李科浇老师的《百度强化学习》以及多个强化学习的经典资料作为补充。使用说明笔记【4】到笔记【11】为李宏毅《深度强化学习》的部分;笔记 【1】和笔记【2】根据《强化学习纲要》整理而来;笔记 【3】和笔记【12】根据《百度强化学习》整理而来。一、Q表格(1)Q-tableMDP包括{S,A,R,...

2021-07-27 18:06:45 537 1

原创 强化学习笔记【2】马尔可夫决策过程(MDP)

该系列主要是听李宏毅老师的《深度强化学习》过程中记下的一些听课心得,除了李宏毅老师的强化学习课程之外,为保证内容的完整性,我还参考了一些其他的课程,包括周博磊老师的《强化学习纲要》、李科浇老师的《百度强化学习》以及多个强化学习的经典资料作为补充。使用说明笔记【4】到笔记【11】为李宏毅《深度强化学习》的部分; 笔记 【1】和笔记【2】根据《强化学习纲要》整理而来; 笔记 【3】和笔记【12】根据《百度强化学习》整理而来。一、马尔可夫过程(Markov Process,MP)(1...

2021-07-26 21:26:36 900 1

原创 强化学习笔记【1】强化学习概述

该系列主要是听李宏毅老师的《深度强化学习》过程中记下的一些听课心得,除了李宏毅老师的强化学习课程之外,为保证内容的完整性,我还参考了一些其他的课程,包括周博磊老师的《强化学习纲要》、李科浇老师的《百度强化学习》以及多个强化学习的经典资料作为补充。使用说明笔记【4】到笔记【11】为李宏毅《深度强化学习》的部分; 笔记 【1】和笔记【2】根据《强化学习纲要》整理而来; 笔记 【3】和笔记【12】根据《百度强化学习》整理而来。一、强化学习基本知识(1)基本概念强化学习关注...

2021-07-24 18:07:19 728 3

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除