自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(2)
  • 收藏
  • 关注

原创 强化学习过程笔记 (二) MDP 马尔可夫决策过程、贝尔曼等式详解

Markov Process & Markov chain 马尔可夫过程及马尔科夫链 如果一个状态是符合马尔可夫的,那就是说一个状态的下一状态只取决于它当前的状态,而跟它之前的状态都没有关系。 Markov Reward Process 马尔可夫过程加上一个奖励函数便构成了马尔可夫奖励过程 这里我们进一步阐述和温习一些概念及定义。 Horizon指一个回合的长度(每个回合的最大时间步数),它由有限个步数决定的 Return指把奖励折扣后所获得的收益,可以定义为奖励的逐步叠加:

2021-10-12 12:46:44 800

原创 强化学习过程笔记 (一) ReinforcementLearning 详解价值函数,剖析公式

本系列博客参照学习笔记easy-rl by DataWhale,标题中的后半部分对应笔记中每章节。 附上链接:https://datawhalechina.github.io/easy-rl/x 本系列博客配合上笔记学习效果更佳,内容主要包含一些重要概念和笔者自己学习中对所遇到的难点疑点的思考。 强化学习的概念示意图: 对于一个强化学习agent,他可能由一个或多个的如下部分组成: Policy function agent会用这个函数来选取下一步 value fun...

2021-10-12 09:47:23 871

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除