![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
RL
文章平均质量分 96
NXU2023
这个作者很懒,什么都没留下…
展开
-
DataWhale 深度强化学习课程(六 策略梯度和Actor-Critic算法)
轨迹是由状态和动作组合而成序列,实际上一方面环境的初始状态是随机的,另一方面智能体每次采取的动作是随机的,从而导致每条轨迹的长度都可能不一样,即我们可以不必采样所有的轨迹,而是采样一部分且数量足够多的轨迹,然后利用这些轨迹的平均值来近似求解目标函数的梯度。但Critic即原来的值函数部分就不需要采样而只负责估计值函数了,并且由于它估计的值函数指的是策略函数的值,相当于带来了一个更稳定的估计,来指导Actor的更新,反而能缓解策略梯度估计带来的方差。对于连续动作空间,通常策略对应的动作可以从高斯分布。原创 2023-11-28 00:52:37 · 623 阅读 · 0 评论 -
DataWhale 深度强化学习课程(五 DQN算法)
算法的伪代码,其中交互采样的目的就是与环境交互并产生样本,模型更新则是利用得到的样本来更新相关的网络参数,由于此处用的是神经网络,因此会多一个计算损失函数并进行反向传播的步骤,即梯度下降,需要定义当前网络,目标网络和经验回放等元素,这些都可以看作算法的一个模块,分别用一个python类来定义。神经网络也有缺点,虽然它的输入可以是连续的,但是输出只能是离散的,即只能适用于离散的动作空间,如果要处理连续的动作空间,就需要用到策略梯度的方法了,这个问题我们在后面会详细讲解。行为策略是探索环境的策略,一般用。原创 2023-11-24 21:07:10 · 170 阅读 · 0 评论 -
DataWhale 深度强化学习课程(四 深度学习基础)
2、Adam 是一种自适应的优化算法,它不仅仅考虑了当前的梯度,还考虑了之前的梯度的平方,这样可以更加准确地估计梯度的方向,从而加快梯度下降的速度,也是目前最流行的优化器之一。注意在做强化学习应用或研究的时候,我们并不需要太纠结于优化器的选择,因为这些优化器的效果并没有太大的差别,而且我们也不需要去了解它们的具体原理,只需要知道它们的大致作用就可以了。动量法的基本思想是在梯度下降的过程中,不仅仅考虑当前的梯度,还要考虑之前的梯度,这样可以加快梯度下降的速度,同时也可以减少梯度下降过程中的震荡。原创 2023-11-19 14:32:44 · 33 阅读 · 0 评论 -
DataWhale 深度强化学习课程(三 表格型方法(基于价值的方法求解强化学习问题))
我们处在未知的环境里,也就是这一系列的决策的概率函数和奖励函数是未知的,这就是有模型与免模型的最大的区别。在强化学习里面,我们可以每走一步更新一次 Q 表格,用下一个状态的 Q 值来更新当前状态的 Q 值,这种单步更新的方法被称为时序差分方法。时序差分是介于蒙特卡洛和动态规划之间的方法,它是免模型的,不需要马尔可夫决策过程的转移矩阵和奖励函数。也有问题考虑太远预期并不好,比如股票,我们关注的是累积的股票奖励,可是如果10年之后股票才有一次大涨大跌,我们肯定不会把10年后的奖励也作为当前动作的考虑因素。原创 2023-11-18 18:54:54 · 126 阅读 · 0 评论 -
DataWhale 深度强化学习课程(二 MDP过程)
多次采样(一种方法MC Monte Carlo采样)后得到的回报的均值为价值,即回报的期望,消除回报的不确定性,即每个episode得到回报不一致。之后后继的状态的每一步都按照最优的策略去做,最后的结果就是最优的。在强化学习中,智能体与环境就是这样进行交互的,这个交互过程可以通过马尔可夫决策过程来表示,马尔可夫决策过程是强化学习的基本框架。假设概率函数是平稳的(stationary)(策略概率不会随时间变化),不同时间点,我们采取的动作其实都是在对策略函数进行采样。,在优化过程中得到一个最新的策略。原创 2023-11-13 22:37:13 · 82 阅读 · 0 评论 -
DataWhale 深度强化学习课程(一 概念理解)
若仅为获知每个摇臂的期望奖励,则可采用仅探索(exploration-only)法:将所有的尝试机会平均分配给每个摇臂(即轮流按下每个摇臂),最后以每个摇臂各自的平均吐币概率作为其奖励期望的近似估计。若仅为执行奖励最大的动作,则可采用仅利用(exploitation-only)法:按下目前最优的(即到目前为止平均奖励最大的)摇臂,若有多个摇臂同为最优,则从中随机选取一个。采取基于策略的强化学习(policy-based RL)方法,当学习好了这个环境后,在每一个状态,我们都会得到一个最佳的动作。原创 2023-11-11 23:10:39 · 45 阅读 · 0 评论