- 博客(5)
- 收藏
- 关注
原创 强化学习笔记(7)基于模型的RL / Dyna算法/ MCTS
文章目录Introductionmodel-FreeModel-Based RLAdvantagesDisadvantagesModel定义目标一些模型表示方法:计划 PlanningSample-Based Planning 基于采样的计划整合Model-Free 和 Model-Based两种经验来源:Dyna基于模拟的搜索前向搜索算法 Foward Search基于模拟的搜索算法MCTS简化...
2020-04-17 18:26:09 1466
原创 设计模式(10) 状态模式 The State Pattern
文章目录状态模式简介:常规的设计方式和面临的问题状态模式:State接口图NoQuarterState为例,状态类实现:Gumball Machine 贩卖机类的实现:扩展Reference状态模式简介:在一些基于状态转换的应用中,可以考虑使用这种模式。下面是一个简单的案例:假设有一个糖果售卖机,那么动作和状态之间的转换图如下所示:状态:No Quarter: 没有投币Ha...
2020-04-17 16:23:45 182
原创 强化学习笔记(6)Policy Gradient 策略梯度下降 DPG/MCPG/AC
[TOC]#概念之前都是基于价值函数或者状态行为价值对的。在大规模问题时由于我们不可能存储每一个状态行为价值,所以我们使用Function来估计该状态的价值。我们通过训练从而精确function里面的参数。这都是基于状态价值的。如果对于行为action很多,或者行为是连续的。那么我们能否确定一个函数P\mathbb PP,我们把状态s等参数输入进去,就能等得到一个行为aπθ(s,a)=...
2020-04-12 17:48:53 2268
原创 强化学习笔记(5)价值估计函数Value Function Approximation
文章目录Introduction如何选择Function Approximator?Incremental MethodsGradient Descent特征向量的形式Linear Value Function Approximation线性价值估计函数正确结果Batch MethodsLeast Squares PredictionExperience ReplayDQN (Deep Q-Net...
2020-04-12 17:33:38 2600
原创 设计模式(9) The Iterator and Composite Patterns(迭代和组合模式)
文章目录应用场景问题:解决:初识迭代器模式(Iterator Pattern)原理实现:实际使用:迭代器模式定义:单一设计原则组合模式定义例:使用组合模式设计菜单反思:让组合模式支持迭代器关于NullIterator应用场景一个 ArrayList作为容器存储数据,另一个使用的是Array(普通数组)。现在想要把这两个容器合并成一个,但是基于这两个容器开发的代码很多,重新修改会需要重写很多代码...
2020-04-12 16:56:48 311
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人