强化学习知识总结（一）

最新推荐文章于 2024-06-27 09:19:50 发布

baidu_37355300

最新推荐文章于 2024-06-27 09:19:50 发布

阅读量712

点赞数

文章标签： Reinforcement Learning

本篇主要是对这段时间以来我在科学网上发的一些强化学习相关的文章进行一个大汇总（Sutton书1-8章内容）。作为对强化学习Tabular方法的一个简单指导性的目录，本篇也会提供之前讨论过的强化学习中的经典问题实现的代码与相关的图表分析的源文件。

K-level

相关文章：

【RL系列】Multi-Armed Bandit问题笔记
【RL系列】Multi-Armed Bandit 笔记补充（一）
【RL系列】Multi-Armed Bandit笔记补充（二）—— UCB策略
【RL系列】Multi-Armed Bandit问题笔记——UCB策略实现
【RL系列】Multi-Armed Bandit笔记——Softmax选择策略

Markov

实例：

1. DP-Programming - Bandit问题

2. DP-Programming - GridWorld

3. Recycling Robot

4. Jack‘s Rental Car

5. Gambler's Problem

相关文章：

【RL系列】马尔可夫决策过程与动态编程笔记
【RL系列】马尔可夫决策过程中状态价值函数的一般形式
【RL系列】马尔可夫决策过程——状态价值评价与动作价值评价
【RL系列】马尔可夫决策过程——Jack’s Car Rental

Monte Carlo

实例：

1. Soap Bubble

2. Black Jack

3. Infinite Variance

4. Monty Hall Problem

5. Race Track

相关文章：

【RL系列】蒙特卡罗方法——Soap Bubble
【RL系列】从蒙特卡罗方法正式引入强化学习
【RL系列】强化学习之On-Policy与Off-Policy

TD Methods

实例：

1. Cliff GridWorld

2. Random Walk

3. Windy GridWorld

相关文章：

【RL系列】SARSA算法的基本结构
【RL系列】Q-Learning与SARSA算法的比较
【RL系列】Monte Carlo与TD算法的结合，n-step TD算法

Room Problem & Maze Problem

实例：

1. Room Problem

2. Maze Berrier

3. Dyna-Q

相关文章：

【Q-learning系列】解决“房间问题”的一个通用方法
【Q-learning系列】从一个简单的寻路问题深入Q-learning

相关实例代码（Matlab）：

链接:https://pan.baidu.com/s/176TmqhKAoi_rsrvDB9b91A 密码:6hv5

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

baidu_37355300

关注关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
强化学习知识总结（一）

本篇主要是对这段时间以来我在科学网上发的一些强化学习相关的文章进行一个大汇总（Sutton书1-8章内容）。作为对强化学习Tabular方法的一个简单指导性的目录，本篇也会提供之前讨论过的强化学习中的经典问题实现的代码与相关的图表分析的源文件。 K-level相关文章：【RL系列】Multi-Armed Bandit问题笔记【RL系列】Multi-Armed Ban...
复制链接

扫一扫