自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

铁锹的填坑记录

科技改变世界

  • 博客(5)
  • 收藏
  • 关注

原创 强化学习笔记(7)基于模型的RL / Dyna算法/ MCTS

文章目录Introductionmodel-FreeModel-Based RLAdvantagesDisadvantagesModel定义目标一些模型表示方法:计划 PlanningSample-Based Planning 基于采样的计划整合Model-Free 和 Model-Based两种经验来源:Dyna基于模拟的搜索前向搜索算法 Foward Search基于模拟的搜索算法MCTS简化...

2020-04-17 18:26:09 1466

原创 设计模式(10) 状态模式 The State Pattern

文章目录状态模式简介:常规的设计方式和面临的问题状态模式:State接口图NoQuarterState为例,状态类实现:Gumball Machine 贩卖机类的实现:扩展Reference状态模式简介:在一些基于状态转换的应用中,可以考虑使用这种模式。下面是一个简单的案例:假设有一个糖果售卖机,那么动作和状态之间的转换图如下所示:状态:No Quarter: 没有投币Ha...

2020-04-17 16:23:45 182

原创 强化学习笔记(6)Policy Gradient 策略梯度下降 DPG/MCPG/AC

[TOC]#概念之前都是基于价值函数或者状态行为价值对的。在大规模问题时由于我们不可能存储每一个状态行为价值,所以我们使用Function来估计该状态的价值。我们通过训练从而精确function里面的参数。这都是基于状态价值的。如果对于行为action很多,或者行为是连续的。那么我们能否确定一个函数P\mathbb PP,我们把状态s等参数输入进去,就能等得到一个行为aπθ(s,a)=...

2020-04-12 17:48:53 2268

原创 强化学习笔记(5)价值估计函数Value Function Approximation

文章目录Introduction如何选择Function Approximator?Incremental MethodsGradient Descent特征向量的形式Linear Value Function Approximation线性价值估计函数正确结果Batch MethodsLeast Squares PredictionExperience ReplayDQN (Deep Q-Net...

2020-04-12 17:33:38 2600

原创 设计模式(9) The Iterator and Composite Patterns(迭代和组合模式)

文章目录应用场景问题:解决:初识迭代器模式(Iterator Pattern)原理实现:实际使用:迭代器模式定义:单一设计原则组合模式定义例:使用组合模式设计菜单反思:让组合模式支持迭代器关于NullIterator应用场景一个 ArrayList作为容器存储数据,另一个使用的是Array(普通数组)。现在想要把这两个容器合并成一个,但是基于这两个容器开发的代码很多,重新修改会需要重写很多代码...

2020-04-12 16:56:48 311

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除