自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 Reinforcement Learning: An Introduction读书笔记 第六章 时间差分算法

第六章 时间差分算法Chapter 6 Temporal-Difference Learning6.1 TD PredictionChapter 6 Temporal-Difference LearningTD learning is a combination of Monte Carlo ideas and dynamic programming (DP) ideas.6.1 TD Prediction

2020-07-19 20:29:37 190

原创 Reinforcement Learning: An Introduction读书笔记 第四章 动态规划

Reinforcement Learning: An Introduction读书笔记 第四章 动态规划)Reinforcement Learning: An Introduction读书笔记 第四章 动态规划4.1 Policy Evaluation4.2 Policy Improvement4.3 Policy Iteration4.4 Value Iteration4.5 Asynchronous Dynamic Programming4.6 Generalized Policy Iteration(

2020-07-19 19:26:36 239

原创 Reinforcement Learning: An Introduction读书笔记 第五章 蒙特卡洛方法

第五章 蒙特卡洛方法Chapter 5 Monte Carlo Methods5.1 Monte Carlo Policy Evaluation5.2 Monte Carlo Estimation of Action Values5.3 Monte Carlo Control5.4 On-Policy Monte Carlo Control5.6 Off-Policy Monte Carlo ControlChapter 5 Monte Carlo MethodsMonte Carlo methods

2020-07-10 15:52:05 238

原创 Reinforcement Learning: An Introduction 读书笔记——第三章

Reinforcement Learning: An Introduction读书笔记——第三章Chaper3 The Reinforcement Learning Problem3.2 Goals and RewardsRL中agent的目标:Reward:3.3 ReturnsChaper3 The Reinforcement Learning Problem3.2 Goals and RewardsRL中agent的目标:To maximize not immediate reward, b

2020-07-07 20:49:27 183

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除