![](https://img-blog.csdnimg.cn/933024ccaad648e5a0b71c9cda822269.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
强化学习
文章平均质量分 88
强化学习
冠long馨
这个作者很懒,什么都没留下…
展开
-
强化学习——强化学习概述
文章目录1. 强化学习2. 序列决策(Sequential decision making)3. 动作空间Reference1. 强化学习(1)定义一个智能体(agent)怎么在一个复杂不确定的环境(environment)里面去极大化它能获得的奖励。(2)过程1: 智能体获取状态,并根据状态输出动作(决策)2: 环境根据执行的决策输出下一状态和该决策获得的奖励(3)强化学习与监督学习的比较(1)强化学习输入的是序列数据,不满足独立同分布。(2)强化学习无法得到立即反馈(3)延迟奖励(原创 2022-01-25 12:08:49 · 9184 阅读 · 0 评论 -
RLChina 2022学习笔记——理论课一:机器学习和深度学习基础
RLchina2022暑假班学习笔记原创 2022-09-16 10:23:23 · 270 阅读 · 0 评论 -
Pytorch安装指南(cuda、镜像下载)
文章目录1. 配置conda虚拟环境2. 安装Pytorch3. 验证1. 配置conda虚拟环境(1)打开Anaconda Prompt(2)输入命令conda create -n pytorch python = 3.6接着输入y,便可完成pytorch虚拟环境创建。(3)进入Pytorch虚拟环境输入:conda activate pytorch 进入到pytorch环境如果能够顺利进入,则证明第一步安装成功。2. 安装Pytorch(1)打开pytorch官网:http原创 2022-01-26 22:05:57 · 15046 阅读 · 1 评论 -
强化学习(一)——马尔可夫决策过程MDP
文章目录1. 基本概念1.1 马尔可夫性质1.2 状态转移矩阵2. 马尔可夫奖励过程2.1 累积奖励与折扣因子2.2 价值函数2.3 贝尔曼方程3. 马尔可夫决策过程MDP3.1 策略3.2 价值函数3.3 贝尔曼方程3.4 实例3.4 最优价值函数(Optimal Value Function)3.5 最优策略(Optimal Policy)3.6 求解贝尔曼最优方程Reference1. 基本概念1.1 马尔可夫性质在时间t+1时,状态仅取决于上一时间t的状态s和动作a,与t-1以及t-1之前的原创 2022-01-21 10:09:49 · 3780 阅读 · 2 评论 -
强化学习(二)——动态规划
强化学习基础——动态规划原创 2022-10-09 17:05:24 · 510 阅读 · 0 评论 -
强化学习(三)—— Model-Free Prediction
强化学习基础——model based prediction原创 2022-10-10 21:49:18 · 626 阅读 · 0 评论 -
强化学习(四)—— Model-Free Control
强化学习基础—— Model Free Control原创 2022-10-11 21:47:33 · 457 阅读 · 0 评论 -
强化学习(五)——Value Function Approximation
强化学习基础(五)—— 价值函数近似原创 2022-10-18 10:08:20 · 720 阅读 · 0 评论 -
强化学习(六)——策略梯度
文章目录1. 演员、环境和奖励2. 最大化期望奖励1. 演员、环境和奖励(1)定义演员就是一个网络,输入状态,输出动作。环境就是一个函数,输入状态和动作,输出状态。环境是基于规则的规则,是确定不变的。奖励是在某一个状态下采取某个动作能够获得的分数。环境是一个随机变量(因为状态和环境都是在一定分布下抽样获得的),我们可以计算的是奖励的期望值。(2)某一个轨迹发生的概率pθ(τ)=p(s1)pθ(a1∣s1)p(s2∣a1,s1)pθ(a2∣s2)p(s3∣a2,s2)⋯=p(s1)∏t=原创 2022-03-22 19:56:55 · 1588 阅读 · 0 评论 -
强化学习算法实践(一)——策略梯度算法
策略梯度是一种基于策略的算法,相比于DQN一类的基于价值的算法,它会直接显式的学习一个目标策略。梯度下降的基础知识可以参考之前的博客强化学习(六)策略梯度和《动手学强化学习》部分内容。[1] 《动手学强化学习》 https://hrl.boyuai.com/[2] David Silver: https://www.youtube.com/watch?v=KHZVXao4qXs&t=4609s我们假设目标策略πθ(a∣s)\pi_\theta(a|s)πθ(a∣s)是一种随机策略,并且处处可微,θ\th原创 2022-10-27 20:36:52 · 2007 阅读 · 0 评论 -
强化学习实战(一)—— 使用BaslineDQN学习飞船降落
本文将介绍如何使用Stable Basline3中的DQN算法学习飞船降落问题。原创 2022-10-19 08:19:00 · 1315 阅读 · 0 评论 -
强化学习算法(一)————表格型方法
文章目录1. 马尔可夫决策过程2. Q表格3. 免模型预测3.1 蒙特克罗策略评估问题:比较动态规划法和蒙特卡洛方法的差异4. 免模型控制1. 马尔可夫决策过程我们会使用概率转移函数p[st+1,rt∣st,at]p[s_{t+1},r_t| s_t,a_t]p[st+1,rt∣st,at]和奖励函数r[st,at]r[s_t,a_t]r[st,at]来描述环境。(1)有模型当我们知道概率函数和奖励函数时,马尔可夫决策过程已知。可以采用策略迭代或价值迭代获得智能体的最优策略,这个过程智原创 2022-02-09 22:23:57 · 1369 阅读 · 0 评论 -
强化学习算法(二)——深度Q网络DQN
文章目录1. 状态价值函数1.1 蒙特卡洛法1.2 时序差分法问题:比较蒙特卡洛和时序差分的方法计算状态价值2. 动作价值函数现实中强化学习面临的状态空间往往是连续的,存在无穷多个状态。这种情况下,就不能再使用表格对价值函数进行存储。价值函数近似(value function approximation)在连续的状态和动作空间中,我们可以用函数Qϕ(s,a)Q_\phi(s,a)Qϕ(s,a)来表示近似计算Qϕ(s,a)≈Qπ(s,a)Q_\phi(s,a) \approx Q^\pi(s,a)原创 2022-02-11 15:45:27 · 2928 阅读 · 0 评论 -
强化学习算法(三)——演员-评论员算法
文章目录1. 策略梯度与深度Q网络2. 演员-评论员算法3. 优势演员-评论员算法(A2C)演员-评论员算法是一种结合策略梯度和时序差分学习的强化学习方法。演员:指策略函数πθ(a∣s)\pi_\theta(a|s)πθ(a∣s),输入状态输出动作或动作的概率,以期获得尽可能高的回报。评论员:指价值函数Vπ(s)V^\pi(s)Vπ(s),对当前策略的价值进行估计。常见算法A3C:异步优势演员-评论员算法A2C:优势演员-评论员算法1. 策略梯度与深度Q网络策略网络希望输入一个状态原创 2022-04-06 17:51:39 · 1627 阅读 · 0 评论 -
强化学习算法(四)——深度确定性策略DDPG
文章目录1. 离散动作与连续动作的区别2. DDPG1. 离散动作与连续动作的区别(1)离散动作与连续动作离散动作:动作空间有限。连续动作:连续动作空间。对于连续的动作空间,Q学习、DQN等算法没有办法处理。(2)随机性策略和确定性策略随机性策略:输入某一个状态s,采取某一个动作的可能型不是百分百。①一般的,在网络最后加上softmax层确保输出是动作概率。决定性策略:输入某个状态s,会选择相同的动作。②一般可以在输出层加一层tanh,把输出限制到[-1,1]之间。将所得值再进行扩原创 2022-04-05 22:44:19 · 1203 阅读 · 1 评论 -
强化学习算法(五)——Proximal Policy Optimization(PPO)
上文提到过策略梯度的模型优化过程,首先利用当前策略采样获得大量轨迹,然后根据轨迹计算梯度优化模型参数。因为每一轮策略模型更新后,采样获得的轨迹分布发生变化,所以上一轮采样的历史轨迹不能重用。在目标函数中增加了两种策略采样分布的距离(采集到的(s,a)对的距离),希望通过减小KL也就是分布差距实现在优化的同时两种分布不要差距过大。的差距不能太大,否则即使经过重要性采样转换后,所采集的数据的方差仍然具有较大差距。来改变采样数据的分布,这样我们就可以实现从其他策略采样获得的轨迹中学习了。原创 2022-10-20 11:20:01 · 1347 阅读 · 0 评论 -
Cannot re-register id: PommeFFACompetition-v0问题解决
在pommerman环境中,期望修改基础环境时,因为env中本已经注册环境名而会出现报错。这样对于重复注册的环境,会先删除已经注册的环境并将新环境注册到register中。Cannot re-register id: MultiagentSimple-v0问题解决...原创 2022-06-21 22:55:33 · 347 阅读 · 0 评论 -
Optimizer load_state_dict() problem
在训练MADDPG模型时,可以从环境中或者已有模型中加载获得初始的MADDPG模型。基于上面的解决思路,我们可以首先从环境中创建初始的maddpg模型。接着修改agent的。通过在网上查询,终于找到了一种可行的解决方案,也就是。相反的只需要重新创建一个优化器即可。代码,在加载模型时不加载优化器模型。终于,我们成功的将模型加载上了!将模型装在到gpu上了。但是我在加载后也通过。原创 2022-10-04 16:20:05 · 937 阅读 · 0 评论