Pytorch深度强化学习
文章平均质量分 97
🔥附全套代码🔥是Pytorch深度学习实战的子专栏,主要包含经典强化学习理论(环境与回报、贝尔曼最优等)和深度强化学习模型(DQN、PG、TD3等)🔥订阅后私信博主或在文章底部/博客主页添加博主微信进入技术交流群
Mr.Winter`
同济大学控制科学与工程在读,主攻机器人运动规划方向,业余丰富各种技术栈。CSDN原力计划作者、官方内容合伙人;2023新星计划Pytorch赛道导师
展开
-
通用人工智能之路:什么是强化学习?如何结合深度学习?
【专栏订阅必读】ChatGPT强大魔力的关键因素之一是应用了强化学习模型,本文系统梳理强化学习中环境、智能体、奖赏、动作、状态等关键概念,并给出深度强化学习框架。原创 2023-07-03 08:46:57 · 6726 阅读 · 29 评论 -
Pytorch深度强化学习1-1:Gym安装与环境搭建教程(附基本指令表)
强化学习是在潜在的不确定复杂环境中,训练一个最优决策指导一系列行动实现目标最优化的机器学习方法。自从AlphaGo的横空出世之后,确定了强化学习在人工智能领域的重要地位,越来越多的人加入到强化学习的研究和学习中。OpenAI Gym是一个研究和比较强化学习相关算法的开源工具包,包含了许多经典的仿真环境(各种游戏),兼容常见的数值运算库,使用户无需过多了解游戏的内部实现,通过简单地调用就可以用来测试和仿真。OpenAI GymGym开源库:测试仿真环境,这些环境有一个公共的接口且允许用户设计通用的算法。原创 2023-04-20 09:33:37 · 17995 阅读 · 33 评论 -
Pytorch深度强化学习1-2:详解K摇臂赌博机模型和ϵ-贪心算法
本文详解单步强化学习的理论模型K摇臂赌博机,引出强化学习中仅利用和仅探索的思想。最后介绍ϵ-贪心算法和softmax算法并给出Python实现,以及各个算法间的对比原创 2023-06-29 09:54:19 · 3112 阅读 · 10 评论 -
Pytorch深度强化学习1-3:策略评估与贝尔曼期望方程详细推导
策略评估是给定一个策略计算策略评估函数的过程,用于衡量策略的好坏。本文从一个例子引出回报与奖赏的概念,并由浅入深推导贝尔曼期望方程,最后给出了收敛性证明,为强化学习的策略评估提供理论保证原创 2023-07-06 08:16:15 · 3365 阅读 · 10 评论 -
Pytorch深度强化学习1-4:策略改进定理与贝尔曼最优方程详细推导
贝尔曼期望方程用于策略评估,那么我们如何借助贝尔曼方程改进策略呢?本节从理论层面推导贝尔曼最优方程和策略改进定理,介绍策略迭代和价值迭代两种算法流程原创 2023-08-03 19:11:01 · 1209 阅读 · 19 评论 -
Pytorch深度强化学习1-5:详解蒙特卡洛强化学习原理
在现实的强化学习任务中,转移概率、奖赏函数甚至环境中存在哪些状态往往很难得知,因此引入免模型学习。蒙特卡洛强化学习是免模型学习中的一种,本文介绍蒙特卡洛强化学习中的策略评估原理,以及同轨和离轨策略改进原理,给出详细的公式推导原创 2023-12-04 10:17:43 · 3852 阅读 · 30 评论 -
Pytorch深度强化学习1-6:详解时序差分强化学习(SARSA、Q-Learning算法)
本文介绍另一种免模型学习技术——时序差分强化学习,结合策略评估原理以及常见的SARSA和Q-Learning算法,给出详细的公式推导加深理解原创 2023-12-11 12:21:34 · 2735 阅读 · 25 评论 -
Pytorch深度强化学习2-1:基于价值的强化学习——DQN算法
深度Q网络DQN的核心原理是通过经验回放池和目标网络技术拟合高维状态空间,是Q-Learning算法的深度学习版本,本文分析DQN的基本算法,并给出训练实例和实际案例原创 2023-12-26 10:13:22 · 3470 阅读 · 35 评论 -
Pytorch深度强化学习案例:基于DQN实现Flappy Bird游戏与分析
在Flappy Bird中,玩家需要通过控制小鸟安全穿过随机长度的水管来得分。本文基于深度Q网络DQN来实现Flappy Bird游戏的自主探索与学习原创 2023-01-28 08:00:00 · 4244 阅读 · 40 评论 -
Pytorch深度强化学习案例:基于Q-Learning的机器人走迷宫
在机器人走迷宫中,机器人需要避开所有障碍从起点到达终点。本文基于Q-Learning来实现机器人走迷宫游戏的自主探索与学习原创 2023-12-19 09:46:34 · 5729 阅读 · 22 评论