2020年04月_SpadeA_Iverxin

11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

原创强化学习笔记（7）基于模型的RL / Dyna算法/ MCTS

文章目录Introductionmodel-FreeModel-Based RLAdvantagesDisadvantagesModel定义目标一些模型表示方法：计划 PlanningSample-Based Planning 基于采样的计划整合Model-Free 和 Model-Based两种经验来源：Dyna基于模拟的搜索前向搜索算法 Foward Search基于模拟的搜索算法MCTS简化...

2020-04-17 18:26:09 1466

原创设计模式（10）状态模式 The State Pattern

文章目录状态模式简介：常规的设计方式和面临的问题状态模式：State接口图NoQuarterState为例，状态类实现：Gumball Machine 贩卖机类的实现：扩展Reference状态模式简介：在一些基于状态转换的应用中，可以考虑使用这种模式。下面是一个简单的案例：假设有一个糖果售卖机，那么动作和状态之间的转换图如下所示：状态：No Quarter: 没有投币Ha...

2020-04-17 16:23:45 182

原创强化学习笔记（6）Policy Gradient 策略梯度下降 DPG/MCPG/AC

[TOC]#概念之前都是基于价值函数或者状态行为价值对的。在大规模问题时由于我们不可能存储每一个状态行为价值，所以我们使用Function来估计该状态的价值。我们通过训练从而精确function里面的参数。这都是基于状态价值的。如果对于行为action很多，或者行为是连续的。那么我们能否确定一个函数P\mathbb PP，我们把状态s等参数输入进去，就能等得到一个行为aπθ(s,a)=...

2020-04-12 17:48:53 2268

原创强化学习笔记（5）价值估计函数Value Function Approximation

文章目录Introduction如何选择Function Approximator?Incremental MethodsGradient Descent特征向量的形式Linear Value Function Approximation线性价值估计函数正确结果Batch MethodsLeast Squares PredictionExperience ReplayDQN (Deep Q-Net...

2020-04-12 17:33:38 2600

原创设计模式（9） The Iterator and Composite Patterns(迭代和组合模式)

文章目录应用场景问题：解决：初识迭代器模式(Iterator Pattern)原理实现：实际使用：迭代器模式定义：单一设计原则组合模式定义例：使用组合模式设计菜单反思：让组合模式支持迭代器关于NullIterator应用场景一个 ArrayList作为容器存储数据，另一个使用的是Array（普通数组）。现在想要把这两个容器合并成一个，但是基于这两个容器开发的代码很多，重新修改会需要重写很多代码...

2020-04-12 16:56:48 311

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 强化学习笔记（7）基于模型的RL / Dyna算法/ MCTS

原创 设计模式（10） 状态模式 The State Pattern

原创 强化学习笔记（6）Policy Gradient 策略梯度下降 DPG/MCPG/AC

原创 强化学习笔记（5）价值估计函数Value Function Approximation

原创 设计模式（9） The Iterator and Composite Patterns(迭代和组合模式)

空空如也

空空如也

原创强化学习笔记（7）基于模型的RL / Dyna算法/ MCTS

原创设计模式（10）状态模式 The State Pattern

原创强化学习笔记（6）Policy Gradient 策略梯度下降 DPG/MCPG/AC

原创强化学习笔记（5）价值估计函数Value Function Approximation

原创设计模式（9） The Iterator and Composite Patterns(迭代和组合模式)