强化学习与多智能体_小行星-的博客-CSDN博客

强化学习与多智能体

文章平均质量分 65

机器学习

文章数：11 文章阅读量：4578 文章收藏量：3

作者: 小行星-

这个作者很懒，什么都没留下…

展开

1. 介绍

第一章介绍当我们思考学习的本质时，第一个来到我们脑海中的想法便是通过与环境互动来学习。[例] 当婴儿玩耍、舞动双臂或四处张望时，尽管不存在明确的“导师”，但确是与环境产生了直接的感观联结(译者注：人的行动与环境存在关联)。通过这种联结不断实践(译者注：人的行动以及环境的反馈，根据反馈调整行动，即人与环境互动的过程)会产生大量的因果信息、行动及其产生的效果信息以及能够用来指导我们如何行动以达...

原创 2020-02-13 18:43:49 · 1087 阅读 · 0 评论
2. 多臂老虎机问题

多臂老虎机问题2. 多臂老虎机问题2.1 强化学习基本概念2.2 多臂老虎机与regret值2.3 随机多臂老虎机2.4 对抗多臂老虎机2.5 上下文多臂老虎机2. 多臂老虎机问题2.1 强化学习基本概念2.2 多臂老虎机与regret值2.3 随机多臂老虎机2.4 对抗多臂老虎机2.5 上下文多臂老虎机

原创 2023-04-24 11:53:48 · 127 阅读 · 0 评论
3. 马氏决策过程

3. 马氏决策过程3. 马氏决策过程3.1 马氏过程3.2 马氏奖励过程3.3 马氏决策过程3.4 贝尔曼方程与最优值3. 马氏决策过程3.1 马氏过程3.2 马氏奖励过程3.3 马氏决策过程3.4 贝尔曼方程与最优值

原创 2023-04-24 11:59:08 · 94 阅读 · 0 评论
4. 动态规划

4. 动态规划4. 动态规划4.1 策略迭代4.2 值迭代4. 动态规划4.1 策略迭代4.2 值迭代

原创 2023-04-24 12:02:19 · 56 阅读 · 0 评论
5. 蒙特卡洛方法

蒙特卡洛方法

原创 2023-01-25 19:39:46 · 668 阅读 · 0 评论
6. 时序差分学习

时序差分（TD）学习是强化学习的最核心和新颖的思想。 TD学习是蒙特卡洛思想和动态规划（DP）思想的结合。

原创 2023-01-27 09:58:09 · 539 阅读 · 0 评论
7.1. 基于函数逼近的优化

基于函数逼近的同轨策略方法

原创 2023-01-27 16:16:16 · 488 阅读 · 0 评论
7.2 基于策略的优化

7.3 基于策略的优化

原创 2023-04-27 21:12:35 · 58 阅读 · 0 评论
8. 图解Q-learning与深度强化学习DQN

深度Q网络

原创 2023-01-28 21:52:24 · 819 阅读 · 0 评论
深度Q学习收敛性的理论研究回顾

DQN的理论研究回顾

原创 2024-02-06 00:07:52 · 347 阅读 · 0 评论
深度Q学习的收敛性分析：通过渐近分析方法

强化学习(RL)是机器学习的一个重要分支，近年来受到越来越多的关注。粗略地说，它考虑一个与动态环境交互的自主智能体，并寻求学习一种策略（根据当前环境状态规定行动），以随着时间的推移最大化智能体的收益。深度强化学习(DeepRL)是强化学习(RL)的一种流行的变体，它结合了强化学习的基本原理和深度学习的力量。近年来，DeepRL在从游戏到自动驾驶汽车等广泛领域都取得了巨大的经验主义成功。深度Q学习是我们重点关注流行的DeepRL算法，在玩ATARI电子游戏中实现了超人的性能。

原创 2023-08-04 10:02:26 · 299 阅读 · 0 评论

强化学习与多智能体

作者: 小行星-

1. 介绍

2. 多臂老虎机问题

3. 马氏决策过程

4. 动态规划

5. 蒙特卡洛方法

6. 时序差分学习

7.1. 基于函数逼近的优化

7.2 基于策略的优化

8. 图解Q-learning与深度强化学习DQN

深度Q学习收敛性的理论研究回顾

深度Q学习的收敛性分析：通过渐近分析方法