强化学习
文章平均质量分 82
参考动手学强化学习、joyrl进行学习
beiketaoerge
这个作者很懒,什么都没留下…
展开
-
Coppeliasim倒立摆demo
的串口号为19998,当在Coppeliasim运行后,后台会发布该串口,可以利用Python进行远程控制。首先需要将使用Python远程控制的文件导入到文件夹,核心是深蓝色的三个文件。双击Sphere这一行的灰色文件,可以看到远程。代码运行后,如图所示,可以驱动倒立摆末端转动。原创 2024-01-30 23:01:19 · 634 阅读 · 1 评论 -
强化学习14——DDPG算法
在线策略算法的样本效率比较低,而在DNQ算法中,做到了离线策略学习,但是只能处理的环境。如果动作空间无限,可将动作空间,但比较粗糙,无法惊喜控制。DDPG(deep deterministic policy gradient)可以用来处理的算法。原创 2024-01-26 15:33:10 · 1523 阅读 · 2 评论 -
强化学习13——Actor-Critic算法
Actor-Critic算法结合了策略梯度和值函数的优点,我们将其分为两部分,Actor(策略网络)和Critic(价值网络)原创 2024-01-23 21:53:01 · 1361 阅读 · 0 评论 -
强化学习12——策略梯度算法学习
将策略描述为带有参数θ\thetaθJθEs0Vπθs0JθEs0Vπθs0)]我们将目标函数对参数θ\thetaθ求导,得到导数,就可以用梯度上升方法来最大化目标函数,从而得到最优策略。我们使用νπ\nu^{\pi}νπ表示策略π\piπ∇θJθ∝∑s∈Sνπθs∑a∈AQπθsa∇θπθa∣s∑s∈Sνπθs∑a∈Aπθa∣sQ。原创 2024-01-23 16:32:20 · 1044 阅读 · 0 评论 -
强化学习11——DQN算法
DQN算法的全称为,Deep Q-Network,即在Q-learning算法的基础上引用深度神经网络来近似动作函数Qsa。对于传统的Q-learning,当状态或动作数量特别大的时候,如处理一张图片,假设为210×160×3,共有256210×60×3种状态,难以存储,但可以使用参数化的函数Qθ来拟合这些数据,即DQN算法。同时DQN还引用了经验回放和目标网络,接下来将以此介绍。原创 2024-01-15 21:31:54 · 1834 阅读 · 0 评论 -
强化学习10——免模型控制Q-learning算法
学习Q-learning算法原创 2024-01-09 20:58:23 · 1161 阅读 · 0 评论 -
强化学习9——免模型预测算法介绍(蒙特卡洛方法和时步差分方法)
对于大部分情况来说,环境是未知的,也就是说状态转移概率未知,对于这种情况的算法称为算法。免模型算法与环境不断交互学习,但是需要大量的运算。原创 2024-01-09 16:47:02 · 1007 阅读 · 0 评论 -
强化学习8——在冰壶环境中使用策略迭代和价值迭代算法
使用冰壶环境中,使用策略迭代和价值迭代算法进行训练原创 2024-01-08 14:51:14 · 1208 阅读 · 0 评论 -
强化学习7——价值迭代算法在强化学习中的应用
使用价值迭代算法,在悬崖漫步算法中的应用原创 2024-01-08 14:07:51 · 1020 阅读 · 0 评论 -
强化学习6——动态规划置策略迭代算法,以悬崖漫步环境为例
讲述策略迭代算法的实例原创 2024-01-07 19:26:37 · 1556 阅读 · 0 评论 -
强化学习4——动态规划初探
动态规划具体指的是在某些复杂问题中,将问题转化为若干个子问题,并在求解每个子问题的过程中保存已经求解的结果,以便后续使用。实际上动态规划更像是一种通用的思路,而不是具体某个算法。在强化学习中,被用于和,如策略迭代、Q-learning算法。原创 2024-01-05 21:02:03 · 413 阅读 · 0 评论 -
强化学习3——马尔可夫性质、马尔科夫决策、状态转移矩阵和回报与策略(下)
智能体的策略policy通常用π表示,即πa∣sPAta∣Sts,在输入状态s的情况下采取动作a的概率。原创 2024-01-05 19:51:50 · 460 阅读 · 0 评论 -
强化学习3——马尔可夫性质、马尔科夫决策、状态转移矩阵和回报与策略(上)
介绍了强化学习中的马尔可夫决策过程描述、马尔可夫性质、状态转移矩阵和回报的知识原创 2024-01-05 15:31:04 · 1541 阅读 · 0 评论