小行星-
这个作者很懒,什么都没留下…
展开
-
1. 介绍
第一章 介绍当我们思考学习的本质时,第一个来到我们脑海中的想法便是通过与环境互动来学习。[例] 当婴儿玩耍、舞动双臂或四处张望时,尽管不存在明确的“导师”,但确是与环境产生了直接的感观联结(译者注:人的行动与环境存在关联)。通过这种联结不断实践(译者注:人的行动以及环境的反馈,根据反馈调整行动,即人与环境互动的过程)会产生大量的因果信息、行动及其产生的效果信息以及能够用来指导我们如何行动以达...原创 2020-02-13 18:43:49 · 1070 阅读 · 0 评论 -
2. 多臂老虎机问题
多臂老虎机问题2. 多臂老虎机问题2.1 强化学习基本概念2.2 多臂老虎机与regret值2.3 随机多臂老虎机2.4 对抗多臂老虎机2.5 上下文多臂老虎机2. 多臂老虎机问题2.1 强化学习基本概念2.2 多臂老虎机与regret值2.3 随机多臂老虎机2.4 对抗多臂老虎机2.5 上下文多臂老虎机原创 2023-04-24 11:53:48 · 113 阅读 · 0 评论 -
3. 马氏决策过程
3. 马氏决策过程3. 马氏决策过程3.1 马氏过程3.2 马氏奖励过程3.3 马氏决策过程3.4 贝尔曼方程与最优值3. 马氏决策过程3.1 马氏过程3.2 马氏奖励过程3.3 马氏决策过程3.4 贝尔曼方程与最优值原创 2023-04-24 11:59:08 · 87 阅读 · 0 评论 -
4. 动态规划
4. 动态规划4. 动态规划4.1 策略迭代4.2 值迭代4. 动态规划4.1 策略迭代4.2 值迭代原创 2023-04-24 12:02:19 · 51 阅读 · 0 评论 -
5. 蒙特卡洛方法
蒙特卡洛方法原创 2023-01-25 19:39:46 · 650 阅读 · 0 评论 -
6. 时序差分学习
时序差分 (TD)学习是强化学习的最核心和新颖的思想。 TD学习是蒙特卡洛思想和动态规划(DP)思想的结合。原创 2023-01-27 09:58:09 · 535 阅读 · 0 评论 -
7.1. 基于函数逼近的优化
基于函数逼近的同轨策略方法原创 2023-01-27 16:16:16 · 485 阅读 · 0 评论 -
7.2 基于策略的优化
7.3 基于策略的优化原创 2023-04-27 21:12:35 · 54 阅读 · 0 评论 -
8. 图解Q-learning与深度强化学习DQN
深度Q网络原创 2023-01-28 21:52:24 · 778 阅读 · 0 评论 -
深度Q学习收敛性的理论研究回顾
DQN的理论研究回顾原创 2024-02-06 00:07:52 · 339 阅读 · 0 评论 -
深度Q学习的收敛性分析:通过渐近分析方法
强化学习(RL)是机器学习的一个重要分支,近年来受到越来越多的关注。粗略地说,它考虑一个与动态环境交互的自主智能体,并寻求学习一种策略(根据当前环境状态规定行动),以随着时间的推移最大化智能体的收益。深度强化学习(DeepRL)是强化学习(RL)的一种流行的变体,它结合了强化学习的基本原理和深度学习的力量。近年来,DeepRL在从游戏到自动驾驶汽车等广泛领域都取得了巨大的经验主义成功。深度Q学习是我们重点关注流行的DeepRL算法,在玩ATARI电子游戏中实现了超人的性能。原创 2023-08-04 10:02:26 · 266 阅读 · 0 评论