强化学习
文章平均质量分 84
爱宇小菜涛
多智能体RL学习ing
展开
-
A3C框架
基于AC框架的算法很难收敛,因此可以采用DQN的经验回放的方法降低数据间的相关性,基于这种思想A3C算法采用异步的思想降低数据间的差异性,具体做法:在多个线程里与环境进行交互,将每个线程内的交互的经验收集起来,共同保存,指导所有智能体与环境进行交互。,优势函数其实就是将Q值归一化到Value baseline上,包括全局的网络架构和n个worker线程,原创 2024-03-02 09:37:42 · 869 阅读 · 0 评论 -
01强化学习基础以及马尔可夫决策过程
记录一些强化学习的基础概念以及马尔可夫决策过程的基础概念。原创 2023-12-28 00:12:34 · 852 阅读 · 1 评论 -
马尔科夫决策过程-策略迭代与值迭代(基于动态规划)
强化学习入门笔记,基于easy RL提示:以下是本篇文章正文内容,下面案例可供参考。原创 2023-12-24 00:28:57 · 1428 阅读 · 1 评论 -
model-free:Monte Carlo Methods-prediction
RL学习笔记——蒙特卡洛算法。原创 2023-12-24 18:35:10 · 965 阅读 · 1 评论 -
model free Monte Carlo-control
RL入门学习,MC迭代优化策略,得到最优策略采用on-policy MC方法进行策略优化。原创 2023-12-25 15:19:03 · 879 阅读 · 0 评论 -
model free Temporal-Difference Learning-prediction
RL学习——时序差分(TD)原创 2023-12-24 23:22:17 · 929 阅读 · 1 评论 -
model free TD-control(Sarsa、Q-learning)
RL学习、基于TD的方法求解最优策略,包括Sarsa与Q-learning针对TD与DP进行比较,sarsa相当于采用贝尔曼期望方程进行迭代,而Q-learning采用贝尔曼最优方程进行迭代。原创 2023-12-25 16:12:18 · 961 阅读 · 0 评论 -
价值函数近似-prediction\control(DQN)
价值函数近似相关内容学习,预测与控制,包括DQN网络的原理。原创 2023-12-27 00:32:43 · 935 阅读 · 1 评论 -
策略梯度方法
策略梯度学习,介绍基于价值与基于策略的RL,如何基于策略梯度进行优化,包括AC框架的介绍。策略梯度算法是基于策略的方法,其对策略进行了参数化。假设参数为θ\thetaθ的策略为πθ\pi_\thetaπθ,该策略为随机性策略,其输入某个状态,输出一个动作的概率分布。策略梯度算法不需要在动作空间中最大化价值,因此较为适合解决具有高维或者连续动作空间的问题。原创 2023-12-27 17:14:58 · 1198 阅读 · 1 评论