![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
强化学习
文章平均质量分 63
sssjjww
这个作者很懒,什么都没留下…
展开
-
强化学习(h-DQN)待添加
在传统的强化学习中,智能体通常需要学习如何相似复杂的、高维的状态空间中直接映射出最佳的动作,然而,许多显示世界的问题,这种复杂性可能会导致学习过程非常缓慢,甚至是不可能的,HRL通常是将问题分解成更小、更易于管理的子任务来解决这个问题。1、层次结构:由多个层级组成,每个层级都有自己的策略和奖励函数,高层策略负责设置目标或任务,而低层策略则关注如何实现这些目标。2、高层策略:负责在抽象层面上做出决策,这些决策通常指导低层策略的行为,高层策略关注的是长期目标和任务规划。原创 2024-02-22 16:30:51 · 213 阅读 · 0 评论 -
强化学习(SAC)
不仅想要长期的回报最大,还想要policy的每一次输出的action的熵最大,这样做是为了让策略随机化,也是在鼓励探索,为具有相似的Q值的动作分配近乎均等的概率,不会给动作范围内任何一个动作分配非常高的概率,避免了反复选择同一个动作而陷入次优。SAC算法是一种现代的深度强化学习算法,它结合了基于策略的和基于价值的方法。随机策略stochastic policy:在给定状态时,不会总是产生相同的动作,相反它会根据某种概率分布选择动作,这意味着及时智能体处于相同的状态,也可能选择不同的动作。原创 2024-02-20 17:20:40 · 866 阅读 · 0 评论 -
强化学习(没想好叫什么)
使用状态值函数和优势函数计算Q,为防止网络输出优势函数A的期望不为0,需要减去A的期望,由于动作无穷多,通过采样计算均值来估计A的期望。结合了演员-评论家方法和经验回放的算法,是一种带经验回放的off-policy的actor-critic模型,A3C是on-policy的,其实 ACER 是 A3C 的off-policy 版本。②实时学习:由于它使用当前策略的数据,因此同策略学习通常需要实时与环境交互,这可能导致学习过程中的探索和利用之间的平衡问题。③一种新的置信域方法,计算简单,适合大规模问题。原创 2024-02-18 17:24:02 · 219 阅读 · 0 评论 -
强化学习(TD3)
这就不可避免的降低了估值函数的准确度,由于估值方法的计算依据贝尔曼方程,即使用后续状态对估计值进行更新,这种性质又加剧了精确度的下降,在每一次更新策略时,使用一个不准确的估计值将会导致错误被累加,这些贝雷架的错误会导致某一个不好的状态被高估,最终导致策略无法被优化到最优,并使算法无法被收敛。:让目标网络与当前网络更新不同步,当前网络更新d次之后再对traget网络进行更新;critic更新多次后,actor更新,critic的更新频次多于actor的。:在计算目标值时,加上扰动,从而使得评价更加准确。原创 2024-02-18 14:25:24 · 608 阅读 · 0 评论 -
强化学习(DDPG)
核心思想:使用深度神经网络来近似表示策略函数和价值函数,策略网络用于输出确定性动作,价值网络用语评估状态-动作对的值。DDPG通过最大化累计期望回报来更新策略网络参数,通过最小化估计值与目标值之间的差来更新价值网络参数。DDPG算法可能会遇到估计偏差的问题,通常是由于它在初始价值函数和策略函数的近似时产生的,这种估计偏差可能。DDPG与PPO不一样在于:PPO输出的是一个策略,即概率分布,而DDPG输出的是一个动作。初始化目标critic网络和目标actor网络中的权重。,从而影响学习到的策略的质量。原创 2024-02-18 11:24:46 · 225 阅读 · 0 评论 -
强化学习(PPO)
policy gradient不好确定learning rate(即step size)的问题,step size过大,policy会一直乱动,不容易收敛;反之,step size太小,完成训练的话,需要很长时间,PPO算法则是利用了新旧策略的比例,限制新策略的更新幅度,让算法对step size不那么敏感。PPO算法的核心在于更新策略梯度,主流方法有两种,一种是KL散度做penalty,另一种是clip做剪裁,主要作用是限制策略梯度更新的幅度。原创 2024-02-07 13:24:46 · 300 阅读 · 0 评论 -
强化学习(TRPO)
TRPO——Trust Region Policy Optimization置信域策略优化算法。②信任域约束:限制策略更新的幅度,保证算法的稳定性。①策略梯度:衡量当前策略与目标策略之间的差异。是一种改进的自然梯度策略优化算法。①性能好,能够有效学习复杂策略。②稳定性强,不易陷入局部最优。原创 2024-02-04 18:02:19 · 260 阅读 · 0 评论 -
强化学习(AC&A3C)
global network下面有n个worker线程,每个线程里有和公共的神经网络一样的网络结构,每个线程会独立的和环境进行交互得到经验数据,线程之间互不干扰,独立运行。每个线程和环境交互到一定量的数据后,就计算在自己线程里面的神经网络损失函数的梯度,但是这些梯度并不更新自己先线程里的神经网络,而是去更新公共的神经网络。A3C中可以将两个网络放到一起,输入状态s,可以输出状态价值和策略,也可以将actor网络和critic网络独立开,分别处理。输入:迭代次数T,状态特征维度n,动作集A,步长。原创 2024-01-31 17:08:11 · 1082 阅读 · 0 评论 -
强化学习(PG)
要利用日度上升来寻找最优的梯度,首先就要找到一个可以优化的函数目标,最简单的优化目标就是初始状态收获的期望,但是有的问题是没有明确的初始状态的,那么优化目标可以定义为。最终目的是决策后获得最大的期望,可以根据最终的回报和决策轨迹的概率求出期望回报来代表作为一个轨迹的回报,根据回报的大小,可以对网络进行优化。基于策略的强化学习,通过神经网络来输出预测的动作,相较于基于价值的强化学习,PG最大的优势在于可以在一个区间内挑选动作。,在每一个step后更新参数,更新的频率高于MC蒙卡洛——原创 2024-01-30 17:56:13 · 303 阅读 · 0 评论 -
强化学习(DQN)
计算目标Q值,输入的是。(4)动作选择:在执行过程中,智能体会更根据当前状态选择一个动作,动作选择,采用的是贪婪策略,前期多以随机采样获得动作,后期则是通过网络获得最大Q值对应的动作。(2)经验回放:在训练过程中,智能体会与环境进行交互,并收集经验数据,经验数据包括状态、动作、奖励以及下一时刻的状态。(3)学习:从经验池中随机采样一批数据,然后使用这些数据来训练深度神经网络,训练目标是是网络输出的Q值与目标Q值之间的差距最小。然后更新Q网络,再更新目标Q网络,更新目标Q网络的频次低于更新Q网路的频次。原创 2024-01-30 09:56:08 · 218 阅读 · 0 评论 -
强化学习(分类类别)
通常可以用马尔可夫决策过程来定义强化学习任务,并将其表示为四元组,分别是状态集合、动作集合、状态转移函数和奖励函数,假设这四元中组中所有元素已知,且状态集合和动作集合在有限步数内是有限集,则机器学习可以对真实环境进行建模,通过学习状态转移函数来构建一个虚拟环境,以模拟真实环境的状态和交互和反映,这就是。然而在实际应用中,智能体并不是那么容易就能知晓马尔可夫决策过程中的所有元素的,通常情况下,状态转移函数和奖励函数很难估计,甚至连环境中的状态都可能是未知的,所以才有了。无模型强化学习又可以分为。原创 2024-01-30 10:17:01 · 301 阅读 · 0 评论