强化学习
文章平均质量分 74
无盐薯片
这个作者很懒,什么都没留下…
展开
-
强化学习--DDPG
不知道读者有没有发现,在强化学习基础算法的研究改进当中,基本无外乎几个亘古不变的主题:首先是如何提高对值函数的估计,保证其准确性,即尽量无偏且低方差;DQN算法的一个主要缺点就是不能用于连续动作空间,这是因为在DQN算法中动作是通过贪心策略或者说argmax的方式来从Q函数间接得到,这里Q函数就相当于DDPG算法中的Critic。在DPG算法 的基础上,再结合一些技巧,就是DDPG算法了,这些技巧既包括DQN算法中也用到的目标网络、经验回放等,也包括引入噪声来增加策略的探索性。原创 2023-12-22 23:50:36 · 514 阅读 · 0 评论 -
强化学习--DQN
其次,每次迭代的样本都是从环境中实时交互得到的,这样的样本是有关联的,而梯度下降法是基于一个假设的,即训练集中的样本是独立同分布的。这样做的好处是,首先每次迭代的样本都是从经验池中随机抽取的,因此每次迭代的样本都是独立同分布的,这样就满足了梯度下降法的假设。其次,经验池中的样本是从环境中实时交互得到的,因此每次迭代的样本都是相互关联的,这样的方式相当于是把每次迭代的样本都进行了一个打乱的操作,这样也能够有效地避免训练的不稳定性。,这些参数可以通过梯度下降的方式来优化,从而使得神经网络能够逼近任意函数。原创 2023-12-19 22:22:15 · 412 阅读 · 0 评论 -
强化学习--免模型预测与控制
而蒙特卡洛基于这样的想法:比如我们有一袋豆子,把豆子均匀地在一定范围内朝这个图形上撒,撒到足够多的数量时数一下这个图形中有多少颗豆子,这个豆子的数目就是图形的面积。此时我们借助计算机程序可以生成大量均匀分布坐标点,然后统计出图形内的点数,通过它们占总点数的比例和坐标点生成范围的面积就可以求出图形面积。蒙特卡洛估计方法在强化学习中是免模型预测价值函数的方式之一,本质是一种统计模拟方法,它的发展得益于电子计算机的发明。这样一来,策略和动作价值函数同时达到最优,相应的状态价值函数也是最优的。原创 2023-12-16 21:02:34 · 475 阅读 · 0 评论 -
强化学习--背景
从数据中学习,或者从演示中学习包含丰富的门类,例如以模仿学习为代表的来自专家的数据中学习策略、以强化逆学习,代表来自数据中学习奖励函数以及来自人类反馈中学习,为代表的来自人类色素的数据中学习奖励模型来进行调节。实际上动态规划原来是一种通用的思路,是具体的某种算法。马尔可夫决策过程是强化学习的基本问题模型,它能够以数学的形式来描述智能体在与交互环境的过程中学习一个目标的过程。这里智能体扮演的是做出决策或动作,并且在交互过程中学习的角色中,环境是指智能体交互中事物外部的一切,不包括智能体本身。原创 2023-12-13 15:15:11 · 851 阅读 · 0 评论 -
强化学习--DDPG算法
强化学习--DDPG算法原创 2022-07-27 23:31:19 · 572 阅读 · 0 评论 -
强化学习--稀疏奖励
强化学习--稀疏奖励原创 2022-07-25 23:47:31 · 420 阅读 · 1 评论 -
强化学习--DQN
强化学习--DQN原创 2022-07-24 00:53:18 · 365 阅读 · 0 评论 -
强化学习--梯度策略
梯度策略原创 2022-07-19 22:49:21 · 233 阅读 · 0 评论 -
强化学习--项目1使用Q-learning解决悬崖寻路问题
使用Q-learning解决悬崖寻路问题原创 2022-07-15 23:37:33 · 576 阅读 · 0 评论 -
强化学习--实验一倒立摆
强化学习实验一倒立摆原创 2022-07-12 22:11:17 · 4931 阅读 · 2 评论