强化学习
文章平均质量分 92
晚点吧
。。。。点
展开
-
强化学习(五)-Deterministic Policy Gradient (DPG) 算法及公式推导
强化学习连续性动作求解,使用DDPG,输出确定性动作a .使用两个actor和critic来改进模型训练原创 2023-12-23 22:54:22 · 1225 阅读 · 0 评论 -
强化学习(四)- Advantage Actor-Critic 及贝尔曼方程推导(A2C)
贝尔曼方程公式推导,基于策略梯度的强化学习,advantage actor critc 原理理解及公式推导。actor-critc原创 2023-12-16 18:55:51 · 966 阅读 · 0 评论 -
强化学习(三)-策略梯度优化policy Gradient
policy gradient ,直接优化策略梯度而不是优化Q函数来指导agent做决策原创 2023-12-10 13:42:55 · 894 阅读 · 0 评论 -
强化学习(二)——Dueling Network(DQN改进)
强化学习DQN优化,使用优势函数代替之前的动作价值函数,Dueling Network可以使用所有DQN的优化方法进行学习,如replay buffer, DDQN等原创 2023-12-10 12:21:21 · 802 阅读 · 0 评论 -
强化学习(一)——基本概念及DQN
强化学习原理,DQN实现及高估问题解决办法,DDQN实现原创 2023-12-03 00:00:56 · 1027 阅读 · 0 评论