![](https://img-blog.csdnimg.cn/e747a1dc79794b148db1881b6b7f255f.jpeg?x-oss-process=image/resize,m_fixed,h_224,w_224)
强化学习
文章平均质量分 89
本专栏致力于分享笔者自己在学习强化学习的收获,以帮助更多RL的新人快速进入这一领域。
北下关吴中生
北下关在读研究生、CSDN人工智能领域优质创作者、阿里云专家博主、2022年博客之星。研究兴趣包括:机器学习模型的可靠性与鲁棒性、大数据场景下的数据安全与隐私保护、强化学习与智能体机器人的决策控制等。
展开
-
【强化学习入门】深度强化学习DRL入门学习资料
强化学习(Reinforcement Learning, RL),又称再励学习、评价学习或增强学习,是机器学习的范式和方法论之一,用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。原创 2023-01-02 23:05:07 · 2128 阅读 · 4 评论 -
强化学习领域值得关注的国际顶级会议
强化学习(Reinforcement Learning, RL),又称再励学习、评价学习或增强学习,是机器学习的范式和方法论之一,用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。今天给大家介绍几个强化学习领域值得关注的顶级会议。原创 2022-11-20 17:07:22 · 6171 阅读 · 0 评论 -
【强化学习笔记】价值学习
时,DQN会知道向左会得到2000分,向右会得到1000分,向上会得到3000分,因此DQN就会选择得分最大的动作,即。(不完全真实,但也不完全虚假,起码有真实值的成分再里面),这个特殊的值叫做。相当于一个“先知”,他可以告诉我们“未来”的事情(注意,实际上它是告诉了。现在已经从纽约到华盛顿了,看了一下手表,只花费了300分钟(是未知的,需要学习),可以预测开车出行花费的时间。),同时预测从华盛顿到亚特兰大还有600分钟(出发前随机做一次预测(初始化预测),模型。出发前随机做一次预测(初始化预测),模型。原创 2022-12-21 16:22:51 · 773 阅读 · 0 评论 -
【强化学习笔记】强化学习中的常见符号
强化学习常见的符号列表原创 2022-06-23 21:52:08 · 1217 阅读 · 0 评论 -
【强化学习笔记】策略梯度(Policy Gradient)
文章目录1.Policy Gradient(PG)1.1.基本组成1.2.玩游戏示例1.3.基本概念1.3.1.回合(episode)1.3.2.总奖励(Total Reward, R)1.3.3.轨迹(Trajectory)2.Proximal Policy Optimization(PPO)1.Policy Gradient(PG)1.1.基本组成智能体(Agent/Actor,后面统一用Agent表示),相当于人;智能体内部有一个用于决策的策略(Policy),相当于人做一件事情的策略(或原创 2022-05-17 12:53:42 · 5429 阅读 · 0 评论 -
【强化学习入门】四.强化学习中的V值和Q值
VVV值定义:评估状态的价值,我们称为VVV值。它代表了智能体在这个状态下,一直到最终状态得到总的奖励的期望。VVV值计算:就是要计算当前状态SSS到最终状态,得到总的奖励的期望值。通俗来说就是:从某个状态,按照策略π\piπ,走到最终状态时,最终获得奖励总和的平均值(奖励期望),就是VVV值。【举例】以下图为例,从状态s0s_0s0开始可以执行两个动作,分别是a1a_1a1和a2a_2a2。从状态s0s_0s0开始,执行动作a1。原创 2022-06-05 00:57:18 · 8298 阅读 · 2 评论 -
【强化学习入门】三.马尔可夫家族中的MP、MRP、MDP分别是什么?
马尔可夫过程(Markov process) 指具有 马尔可夫性质 的 随机过程 ,也被称为马尔可夫链(Markov chain)。我们把定义中的两个定语(马尔可夫性质 和 随机过程)拿出来,分别进行解释。首先是提到 随机过程 ,就不得不提到另外一个名词——概率论 。二者经常拿来做对比,看一下两者的区别:不过,二者当中都提到了一个新词——“随机现象”,可能有的人对这个词有疑惑,“随机现象” 又是什么呢?官方的定义是这样:通俗来说,“随机现象” 就是某个不确定性的事情。原创 2022-12-25 09:09:16 · 3089 阅读 · 3 评论 -
【强化学习入门】二.强化学习的基本概念:状态、动作、智能体、策略、奖励、状态转移、轨迹、回报、价值函数
自动驾驶中,汽车就是智能体;机器人控制中,机器人就是智能体;超级玛丽游戏中,玛丽就是智能体。当智能体做出一个动作,状态会发生变化(从旧的状态变成新的状态)。我们就可以说状态发生的转移。的含义就是,根据观测到的状态,做出动作的方案,超级玛丽游戏中,观测到的这一帧画面就是一个。强化学习的目标就是尽可能的获得更多的。玛丽做的动作:向左、向右、向上即为。,环境的状态发生了变化,变成了。同时由于智能体做出的动作。智能体观测到环境的状态。动作是由谁做的,谁就是。的概率密度函数PDF。由于智能体做出了动作。原创 2022-12-20 21:46:20 · 5108 阅读 · 0 评论 -
【强化学习入门】一.概率论的基本概念:随机变量、概率密度函数、期望、随机抽样
高斯分布的图像如下图所示。在高斯分布的概率密度函数PDF图像中,横轴。正面朝上记为0,反面朝上记为1,因此抛硬币的结果就是一个。按照随机原则,利用随机数,从总体中抽取样本的方法。离散的概率分布的概率密度函数PDF表示了随机变量。以离散的概率分布为例,如下图所示。表示色子点数为1出现的次数为10次。是一个未知的量,它的值取决于一个。表示随机变量的观测值。以抛硬币为例,抛硬币就是一个。是随机变量的概率密度,曲线。表示色子点数为1出现的概率为。是高斯分布的概率密度函数。的取值只能是离散的值。原创 2022-12-20 20:25:38 · 2911 阅读 · 0 评论