强化学习
文章平均质量分 93
RessCris
怕什么真理无穷,进一寸有一寸的欢喜
展开
-
Datawhale 强化学习笔记(四)结合策略梯度和价值函数的 Actor-Critic 算法
结合了策略梯度和值函数的 Actor-Critic 算法则能同时,并且甚至能问题。基于价值的(或称评论员型,Critic), 基于策略的(或称 演员型)原创 2024-01-24 00:17:14 · 892 阅读 · 0 评论 -
Datawhale 强化学习笔记(三)基于策略梯度(policy-based)的算法
轨迹是由状态和动作组合而成的序列,实际上一方面环境的初始状态是随机的,另一方面智能体每次采取的动作是随机的,从而导致每条轨迹的长度都可能不一样,这样组合起来的轨迹几乎是无限多条的,这样一来求解目标函数的梯度就变得非常困难了。基于价值的算法是通过学习价值函数来指导策略的,而基于策略的算法则是对策略进行优化,并且通过计算轨迹的价值期望来指导策略的更新。,然后利用这些轨迹的平均值来近似求解目标函数的梯度。策略梯度算法是一类直接对策略进行优化的算法,但它的优化目标与基于价值的算法是一样的,都是累积的价值期望。原创 2024-01-20 23:42:21 · 865 阅读 · 0 评论 -
Datawhale 强化学习笔记(二)马尔可夫过程,DQN 算法
其次,每次迭代的样本都是从环境中实时交互得到的,这样的样本是有关联的,而梯度下降法是基于一个假设的,即训练集中的样本是独立同分布的。在 DQN 算法中,大臣是不管好的还是坏的情报都会汇报给皇帝的,而在 Double DQN 算法中大臣会根据自己的判断将自己认为最优的情报汇报给皇帝,即先在策略网络中找出最大 Q 值对应的动作。目标网络和当前网络结构都是相同的,都用于近似 Q 值,在实践中每隔若干步才把每步更新的当前网络参数复制给目标网络,这样做的好处是保证训练的稳定,避免 Q 值的估计发散。原创 2024-01-17 13:24:14 · 1215 阅读 · 0 评论 -
Datawhale 强化学习笔记(一)概述
多智能体从数据中学习(从演示中学):利用数据来辅助学习模仿学习: 模仿学习是指在奖励函数难以明确定义或者策略本身就很难学出来的情况下,我们可以通过模仿人类的行为来学习到一个较好的策略逆强化学习:从人类数据中学习奖励函数;通过观察人类的行为来学习到一个奖励函数,然后通过强化学习来学习一个策略。由于需要专家数据,逆强化学习会受到噪声的影响,因此如何从噪声数据中学习到一个较好的奖励函数也是一个难题。原创 2024-01-17 12:47:51 · 890 阅读 · 0 评论