Reinforcement Learning
文章平均质量分 93
强化学习的一些笔记
奋斗的西瓜瓜
努力会变得幸运。
展开
-
策略梯度算法(Policy Gradient)理论基础及REINFORCE算法代码实现
本文详细讲解了策略梯度算法,并对该算法的步骤进行了详细推导。最后复现了REINFORCE算法。原创 2022-07-19 21:33:59 · 1734 阅读 · 2 评论 -
Deep Ensemble Bootstrapped Q-Learning (Deep-EBQL)【代码复现】
本文复现了EBQL的深度版本,将EBQL的思想用于DQN,极大的缓解了DQN过估计的问题。Deep-EBQL在Atari的环境都有很好的表现。原创 2022-07-15 09:12:22 · 551 阅读 · 0 评论 -
Ensemble Bootstrapping for Q-Learning(EBQL)【论文复现】
本文详细介绍了EBQL算法,并加以复现。EBQL算法利用集成得思想,解决了Q函数过估计的问题,在某些场景下有更好的表现。EBQL是PMLR2021年的论文。原创 2022-07-15 08:00:00 · 556 阅读 · 0 评论 -
Dyna-Q算法的理论基础及其代码实践【CliffWalking-v0】
Dyna-Q算法的理论基础及其代码实现,环境是CliffWalking-v0。原创 2022-07-13 21:51:09 · 1785 阅读 · 2 评论 -
Double Q-Learning理论基础及其代码实现【Pendulum-v0】
Double Q-Learning算法是为了解决Q-Learning算法过高估计的问题,采用了两个Q表格。本文详细讲解了DQL算法的理论基础以及代码实现,环境是基于Pendulum-v0的。原创 2022-07-12 10:00:00 · 1428 阅读 · 0 评论 -
时序差分方法:Q-learning、SARSA和SARSA-Lambda【附带三个算法的代码实现】
本文详细介绍了强化学习中的时序差分方法,主要涉及Q-Learning算法、SARSA算法和多步SARSA算法。附带了这三个算法的代码实现,其中,SARSA算法和多步SARSA算法是基于CartPole-v0环境的,Q-Learning算法是基于Pendulum0v0环境的。......原创 2022-07-11 09:00:00 · 620 阅读 · 0 评论 -
基于蒙特卡洛的强化学习方法【附带代码实现】
本文介绍了基于蒙特卡罗的强化学习方法,附带了代码实现。原创 2022-07-10 14:15:39 · 1849 阅读 · 3 评论 -
Dueling DQN的理论基础及其代码实现【Pytorch + Pendulum-v0】
Dueling DQN是一种基于DQN的改进算法,它的主要突破点在于利用模型结构将值函数表示成更细致的形式,使得模型能够拥有更好的表现。本文详细讲解了DuelingDQN的理论基础以及代码实现。原创 2022-07-09 17:59:49 · 2318 阅读 · 1 评论 -
DoubleDQN的理论基础及其代码实现【Pytorch + Pendulum-v0】
普通的 DQN 算法通常会导致对值的过高估计,Double DQN能很大程度上缓解这个问题。本文附带Double DQN的理论基础以及代码实现。原创 2022-07-08 14:32:54 · 1345 阅读 · 0 评论 -
DQN理论基础及其代码实现【Pytorch + CartPole-v0】
DQN理论基础及其基于Pytorch的代码实现,环境是CartPole-v0。附带完整代码实现。原创 2022-07-07 09:50:20 · 4018 阅读 · 14 评论 -
时序差分 (Q-learning && SARSA)
时序差分方法时序差分方法是强化学习理论中最核心的内容,是强化学习领域最重要的成果,没有之一。与动态规划的方法和蒙特卡罗的方法比,时序差分的方法主要的不同点在值函数估计上面。动态规划方法计算值函数是通过下式:V(St)←Eπ[Rt+1+γV(St+1)]=∑aπ(a∣St)∑s′,rp(s′,r∣St,a)[r+γV(s′)]V\left(S_{t}\right) \leftarrow E_{\pi}\left[R_{t+1}+\gamma V\left(S_{t+1}\right)\right]=\s原创 2022-05-23 20:29:03 · 2191 阅读 · 0 评论 -
基于动态规划的强化学习方法
\quad\quad基于动态规划的强化学习方法\quad动态规划(dynamic programming)是程序设计算法中非常重要的内容,能够高效解决一些经典问题,例如背包问题和最短路径规划。动态规划的基本思想是将待求解问题分解成若干个子问题,先求解子问题,然后从这些子问题的解得到目标问题的解。动态规划会保存已解决的子问题的答案,在求解目标问题的过程中,需要这些子问题答案时就可以直接利用,避免重复计算。本文介绍如何用动态规划的思想来求解在马尔可夫决策过程中的最优策略。基于动态规划的强化学习算法主要原创 2022-05-19 19:09:04 · 1600 阅读 · 0 评论 -
从多臂老虎机开始学习强化学习中的探索与利用
从多臂老虎机开始学习强化学习中的探索与利用多臂老虎机问题形式化描述估计期望奖励代码实现策略中的探索与利用epsilon-greedy上置信界算法汤普森采样算法原创 2022-05-02 15:14:48 · 567 阅读 · 0 评论 -
强化学习概述——《动手学强化学习》笔记
强化学习问题概述、强化学习的定义、强化学习的环境、马尔可夫决策过程、强化学习的目标函数、状态值函数、状态-动作值函数、强化学习常用策略原创 2022-04-28 11:17:42 · 661 阅读 · 1 评论