揭秘深度强化学习
文章平均质量分 74
从深度强化学习入手,旨在解决海-陆-空之间的网络连接和信息传输等。
请叫我小小司
这个作者很懒,什么都没留下…
展开
-
什么是深度强化学习(DRL)?
强化学习(RL)是机器学习的一个重要分支,主要用来解决连续决策的问题。强化学习可以在复杂的不确定的环境环境中学习如何实现我们设定的目标。强化学习的应用场景非常广,几乎包括了所有需要做一系列决策的问题,如控制机器人的电机让他完成特定任务、给商品定价或者进行库存管理、玩视频游戏或者棋牌游戏等。强化学习也可应用到有序列输出的问题中,因为他可以针对一系列变化的环境状态,输出一系列对应的行动。深度学习(DL)也是机器学习的一个重要分支,也就是多层神经网络,通过多层的非线性函数实现对数据分布及函数模型的拟合。原创 2023-10-18 16:51:00 · 509 阅读 · 1 评论 -
隐马尔可夫模型(HMM)
我们所说的模型就是指全部的状态转移概率都已经知道,所以在已知模型的情况下,对于一个输入的序列,就可以简单地通过各个状态转移概率相乘得到后验概率的估计。其中白球和红球的分布情况如图所示,1号盒子中有3个白球,2个红球,2号盒子中有3个白球,2个红球,3号盒子中有4个白球,1个红球,4号盒子中有2个白球,3个红球。现在要解决的个问题就是假设经过5次抽球,得到一个观察序列为O={红,白,红,红,白}那么,请问根据上面的规则,在只知道上述观察序列的情况下,上述观察序列最可能从什么样的盒子序列中得到?原创 2023-10-19 13:24:15 · 126 阅读 · 0 评论 -
什么是深度确定性策略梯度(DDPG)?
另一个是Critic网络,用于评估Actor网络输出的动作的价值。通过不断与环境交互,DDPG算法通过最小化Critic网络的损失函数来更新Actor网络的权重,从而优化策略。通过训练,DDPG算法可以学习到最佳的飞行策略,使无人机能够智能地调整位置,以适应不同基础无人机的需求和位置。与DQN算法相比,DDPG算法的收敛速度通常较慢,这是由于连续的动作空间和探测噪声的需要。总之,DDPG算法是一种基于深度强化学习的算法,可以用于移动边缘计算中的动态轨迹规划和计算资源分配,以最小化平均延迟。原创 2023-10-18 16:54:28 · 435 阅读 · 1 评论 -
什么是深度Q网络(DQN)?
目标网络是一个固定的网络,用于计算目标值,通过减少目标值的变化来提高训练的稳定性。通过经验回放机制和目标网络的引入,DQN算法能够提高算法的稳定性和收敛性,从而在解决具有高维状态和动作空间的强化学习问题上取得良好的效果。它在处理高维状态和动作空间的问题上具有很好的性能,并且可以通过经验回放和目标网络等技术提高算法的稳定性和收敛性。深度神经网络可以处理高维的状态和动作空间,并通过反向传播算法来更新网络的参数,从而实现对值函数的优化。训练过程中的经验回放和目标网络的使用可以提高训练的效率和稳定性。原创 2023-10-18 16:52:43 · 764 阅读 · 1 评论