强化学习
文章平均质量分 95
强化学习算法
cute_Lily
这个作者很懒,什么都没留下…
展开
-
1 强化学习(Reinforcement Learning, RL)初步介绍
强化学习概念介绍原创 2017-02-25 17:59:46 · 86196 阅读 · 0 评论 -
2 从Multi-arm Bandits问题分析 - RL进阶
从k-armed Bandit问题进行分析,进一步理解RL问题的解决思想原创 2017-02-27 16:35:04 · 13974 阅读 · 4 评论 -
3 有限马尔可夫决策过程(Finite Markov Decision Processes)
有限马尔可夫过程初步介绍原创 2017-03-05 20:26:21 · 12617 阅读 · 5 评论 -
4 动态编程(Dynamic Programming, DP)
动态编程原创 2017-03-17 17:31:10 · 11911 阅读 · 1 评论 -
5 蒙特卡洛方法 (Monte Carlo Method)
蒙特卡洛(Monte Carlo, MC)方法——增强学习方法之一原创 2017-03-27 15:36:07 · 23947 阅读 · 1 评论 -
6 Temporal-Difference (TD) Learning
Temporal-difference (TD) learning原创 2017-04-16 11:35:49 · 18775 阅读 · 2 评论 -
7 Multi-step Bootstrapping
【上一节Temporal-Difference (TD) Learning 】1、n-step TD PredictionTD 和 蒙特卡洛方法在原理上是有一定区别的,例如利用在给定规则 ππ{\pi} 下产生的样本 episodes 来估计 vπvπv_{\pi},蒙特卡洛方法会基于整个 episode 结束之后的 reward 来对每个状态进行更新。而 one-step TD 方法...原创 2018-07-15 16:11:30 · 1913 阅读 · 0 评论 -
8 Planning and Learning with Tabular Methods
【上一节 [Multi-step Bootstrapping] (https://blog.csdn.net/coffee_cream/article/details/81053960)】本节创建了一种统一的方法视图,其中既包括需要一个环境模型)的方法(如动态编程、启发式搜索等,也包括一些不依赖于模型的方法(如蒙特卡洛、temporal-difference等),这里将前者视为是一种 plan...原创 2018-09-16 14:45:55 · 1147 阅读 · 0 评论