强化学习笔记
文章平均质量分 94
最近在学习刘建平老师的强化学习博客,学习笔记记录在此
最忆是江南.
这个作者很懒,什么都没留下…
展开
-
【强化学习】DDPG
目录Deep Deterministic Policy Gradient算法随机策略 与 确定性策略DPG 与 DDPG深度确定性策略梯度算法DDPG概述对比DDQNDDPG网络功能:网络软更新:引入噪声:两个网络的损失函数:DDPG算法流程小结强化学习笔记,内容来自刘建平老师的博客 Deep Deterministic Policy Gradient算法随机策略 与 确定性策略 确定性策略(Deterministic Policy) 和 随机策略 是相对而言的,对于某一些动作集合来原创 2021-07-18 22:22:18 · 1979 阅读 · 0 评论 -
【强化学习】Actor-Critic
目录Actor-Critic算法概述可选形式算法流程小结强化学习笔记,内容来自刘建平老师的博客 Actor-Critic算法概述 Actor-Critic包括两部分:演员(Actor)、评价者(Critic)。其中Actor使用策略函数,负责生成动作(Action)并和环境交互,而Critic使用价值函数,负责评估Actor的表现,并指导Actor下一阶段的动作。在Policy-Gradient中,策略函数就是Actor,但是那里没有Critic,当时使用了蒙特卡罗法来计算每一步的价原创 2021-07-18 22:08:56 · 1426 阅读 · 0 评论 -
【强化学习】策略梯度Policy-Gradient
目录Value-based 强化学习方法的不足Policy-based 强化学习方法的引入策略梯度的优化目标策略函数的设计Softmax策略函数Gauss策略函数蒙特卡罗策略梯度reinforce算法小结强化学习笔记,内容来自刘建平老师的博客 Value-based 强化学习方法的不足 Q-learning、Sarsa、DQN都是基于价值的强化学习算法,存在主要三种不足: 1. 对连续动作的处理能力不足 DQN之类的方法一般都是只处理离散动作,无法处理连续动作。原创 2021-07-18 22:02:00 · 204 阅读 · 0 评论 -
【强化学习】DQN及其延伸算法
目录DQN算法价值函数的近似表示提出背景:近似表示:状态价值函数动作价值函数概述经验回放(experience replay)算法流程小结Nature DQN算法概述Nature DQN的优化点:Nature DQN 建模——双网络结构:算法流程小结Double DQN算法概述DDQN的优化点:DDQN建模——Q值与动作解耦:算法流程Prioritized Replay DQN算法概述Prioritized Replay DQN的优化点:Prioritized Replay DQN建模:算法流程(集成了DD原创 2021-07-18 21:52:33 · 1828 阅读 · 0 评论 -
【强化学习】Q-Learning
这里写目录标题Q-Learning(off-policy)概述off-policy:算法流程Q-Learning vs Sarsa小结强化学习笔记,内容来自刘建平老师的博客Q-Learning(off-policy)概述 给定强化学习的5个要素:状态集S, 动作集A, 即时奖励R,衰减因子γ, 探索率ϵ, 求解最优的动作价值函数q∗和最优策略π∗ 关键词:时序差分、model-free、off-policy、ϵ-greedy、价值迭代 通过价值函数的更新,来更新策略,通过策略来产原创 2021-07-18 21:47:52 · 1384 阅读 · 0 评论 -
【强化学习】Sarsa 和 Sarsa(λ)
这里写目录标题Sarsa算法(on-policy)概述on-poilcy:算法流程Sarsa(λ)算法(on-policy)概述状态价值迭代公式:动作价值迭代公式:算法流程Sarsa小结强化学习笔记,内容来自刘建平老师的博客Sarsa算法(on-policy)概述 给定强化学习的5个要素:状态集S, 动作集A, 即时奖励R,衰减因子γ, 探索率ϵ, 求解最优的动作价值函数q∗和最优策略π∗ 关键词:时序差分、model-free、on-policy、ϵ-greedy、价值迭代 Sar原创 2021-07-18 21:40:45 · 816 阅读 · 0 评论 -
【强化学习】强化学习问题的数学模型与三种求解方法
强化学习笔记,内容来自刘建平老师的博客强化学习模型基础强化学习在机器学习中的位置 强化学习是和监督学习,非监督学习并列的第三种机器学习方法。 强化学习来和监督学习最大的区别是它没有监督学习已经准备好的训练数据输出值。强化学习只有奖励值,但是这个奖励值和监督学习的输出值不一样,它不是事先给出的,而是延后给出的。同时,强化学习的每一步与时间顺序前后关系紧密。而监督学习的训练数据之间一般都是独立的,没有这种前后的依赖关系。 强化学习和非监督学习的区别。也还是在奖励值这个地方。非监督学习是原创 2021-07-18 21:18:58 · 3359 阅读 · 0 评论
分享