
深度强化学习
文章平均质量分 95
1、介绍强化学习相关的值函数(Q、V)
2、介绍强化学习估计值函数的两种方法:蒙特卡罗方法MC和时序差分方法TD
3、会介绍强化学习主要应用的领域模型,比如数学模型MDP,POMDP
4、主要记录强化学习以及深度强化学习相关的算法
最后,我也是一名本科生, 若有哪里表述的不对, 希望大家指正.
@Mr Wang
作者主要研究Tensorflow框架学习使用机器学习和深度学习应用于物联网移动边缘计算方面的问题。
使用Tensorflow的原因:TensorFlow采用静态计算图,使其更适用于生产环境和大规模部署;Tensorflow有丰富的生态系统,支持广泛的应用领域,从移动设备到云端。相比于PyTorch以及PaddlePaddle,Tensorflow一方面更侧重于生产环境和部署适用于大规模的生产部署,支持分布式计算和多平台部署;另一方面含有TensorFlow Extended (TFX): 注重端到端的生产流水线,包括模型训练、评估和部署。
展开
-
深度强化学习Deep Rrinforcement Learning|MDP|POMDP
现代网络规模大、结构复杂,计算复杂度很快变得难以控制。因此,DRL一直在发展成为克服这一挑战的替代解决方案。马尔科夫链(Markov Chain)、马尔科夫决策过程(Markov Decision Process,MDP)、部分可观察马尔科夫决策过程(Partially Obserable Markov Decision Process,POMDP)、隐马尔科夫模型(HMM)。原创 2024-07-16 14:32:10 · 1394 阅读 · 1 评论 -
强化学习Reinforcement Learning|Q值和V值|MC|TD
人工智能 = 深度学习 + 强化学习 ----David Silver随着深度神经网络的兴起,强化学习这一领域也获得了蓬勃的发展。强化学习是机器学习领域除有监督学习、无监督学习以外的另一个学习分支,它主要利用智能体与环境交互,从而学习到能获得良好结果的策略。举个简单的例子,扫地机器人打开开关后,不需要人类告诉机器人哪里有灰尘,哪里有垃圾,自己就会去清理了。这就是我们希望用强化学习的方式,使扫地机器人获得独立自主地完成某种任务的能力。原创 2024-01-20 14:45:08 · 1293 阅读 · 1 评论 -
强化学习Reinforcement Learning|Q-Learning|SARSA|DQN以及改进算法
在一个MDP模型中,我们想要获得最优的策略,对于智能体去最大化系统的预期长期奖励函数。因此,我们先定义状态值函数,表示在每个状态s下遵循策略所得到的期望值。策略的值函数V通过无界限和折现MDP量化策略的优良性,可以表示为:因为我们的目的是找到最优的策略,在每个状态的一个最优的动作可以被找到通过最优的值函数如果我们用表示为所有状态动作对的最优的Q函数,然后最优的值函数可以被写为.现在,问题被简化为寻找Q函数的最优值,即对于所有的状态-动作对,可以通过迭代(iteration)的过程完成。原创 2024-09-16 16:06:09 · 1035 阅读 · 0 评论 -
深度强化学习Reinforcement Learning|PG|Actor-Critic|A3C|DDPG
目录一、PG(Policy Gradient)策略梯度算法(on-policy)1、策略梯度公式推导2、代码讲解/伪代码3、改进3.1Trick Baseline3.2 Suitable Credit二、Actor-Critic算法三、A3C算法四、DDPG算法 我们都知道强化学习环境env的不确定性是比较突出的一个特点,那么有很多情况下时需要使用强化学习设计仿真实验的,经常会设置一些随即参数,比如随机正态分布或者一个随机的常量,这种我们就正常使用科学计算库numpy或者深度学习框架比如Tensorf原创 2024-09-16 16:06:29 · 1100 阅读 · 0 评论