自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

原创 强化学习中的MASK掩码约束动作action

参考1、虽然可以制定相应的奖励函数,但是强化学习模型还是努力去学。2、因此,在大多数RL落地的场景下,都会使用MASK掩码方法解决动作约束的问题在强化学习解决问题的场景中,动作是体现学习效果最直接的因素,直接影响了智能体下一步的走向和对环境状态的改变。在应用强化学习解决实际问题时,往往不同于gym库中倒立摆那样的情况,而是存在很多的约束。

2024-05-07 11:32:11 962

原创 各大池化Pooling操作,以及python实践,学习笔记

以上就是对于池化的简单了解。首先介绍了一下池化的基本知识,主要介绍的是最大池化和平均池化。然后通过代码的方式分别记录了使用自适应池化和非自适应池化的区别。池化作为深度学习中常用的一种方法,具有对于模型的优化具有重要意义。事实上,池化的种类是非常多的,但是在Pytorch中并未提供所有的方法。一方面我们可以根据Pytorch中已有的池化方法,调整其中的参数来实现我们想要的池化方法;另一方面,我们也应该学会在已有方案都无法实行的情况下,能够自己方法原理设计池化层。

2024-04-26 00:11:24 974 1

原创 深度学习embedding方法,降维,以及pytorch中使用embedding

形式上讲,Embedding就是用。

2024-04-24 22:46:10 2729

原创 强化学习基础算法介绍,DQN,策略梯度算法,Actor-Critic算法

在 Q-learning 算法中,我们以矩阵的方式建立了一张存储每个状态下所有动作值的表格。表格中的每一个动作价值表示在状态s下选择动作a然后继续遵循某一策略预期能够得到的期望回报。然而,这种用表格存储动作价值的做法只在环境的状态和动作都是离散的,并且空间都比较小的情况下适用,我们之前进行代码实战的几个环境都是如此(如悬崖漫步)。当状态或者动作数量非常大的时候,这种做法就不适用了。例如,当状态是一张 RGB 图像时,假设图像大小是210x160x3,此时一共有种状态。

2024-04-05 21:13:40 969 1

转载 强化学习算法的分类

另一方面, 在实际应用中,学习得到的模型往往是不准确的,这给智能体训练引入了估计误差,基于带误差 模型的策略的评估和提升往往会造成策略在真实环境中失效。一些常见的Actor-Critic类的算法包括Actor-Critic(AC)算法(Suttonetal., 2018) 和一系列改进:(1)异步优势Actor-Critic算法(A3C)(Mnihetal.,2016)将Actor-Critic 方 法扩展到异步并行学习,打乱数据之间的相关性,提高了样本收集速度和训练效率;与基于模型的方法相比,

2024-04-05 17:14:40 537 1

原创 强化学习基本概念及公式推导

马尔可夫决策过程(Markov decision process,MDP)是强化学习的重要概念。要学好强化学习,我们首先要掌握马尔可夫决策过程的基础知识。前两章所说的强化学习中的环境一般就是一个马尔可夫决策过程。与多臂老虎机问题不同,马尔可夫决策过程包含状态信息以及状态之间的转移机制。如果要用强化学习去解决一个实际问题,第一步要做的事情就是把这个实际问题抽象为一个马尔可夫决策过程,也就是明确马尔可夫决策过程的各个组成要素。本章将从马尔可夫过程出发,一步一步地进行介绍,最后引出马尔可夫决策过程。

2024-04-05 16:53:55 1161 1

转载 强化学习算法入门-基本思想, 强化学习与监督学习的异同点

广泛地讲,强化学习是机器通过与环境交互来实现目标的一种计算方法。机器和环境的一轮交互是指,机器在环境的一个状态下做一个动作决策,把这个动作作用到环境当中,这个环境发生相应的改变并且将相应的奖励反馈和下一轮状态传回机器。这种交互是迭代进行的,机器的目标是最大化在多轮交互过程中获得的累积奖励的期望。强化学习用智能体(agent)这个概念来表示做决策的机器。相比于有监督学习中的“模型”,强化学习中的“智能体”强调机器不但可以感知周围的环境信息,还可以通过做决策来直接改变这个环境,而不只是给出一些预测信号。

2024-04-04 21:12:18 57 1

原创 PPO(Proximal Policy Optimization)算法原理及实现,详解近端策略优化

接着上面的讲,PG方法一个很大的缺点就是参数更新慢,因为我们每更新一次参数都需要进行重新的采样,这其实是中on-policy的策略,即我们想要训练的agent和与环境进行交互的agent是同一个agent;与之对应的就是off-policy的策略,即想要训练的agent和与环境进行交互的agent不是同一个agent,简单来说,就是拿别人的经验来训练自己。举个下棋的例子,如果你是通过自己下棋来不断提升自己的棋艺,那么就是on-policy的,如果是通过看别人下棋来提升自己,那么就是off-policy的。

2024-04-04 10:20:13 16505 3

原创 MAPPO算法流程和代码解读

代码在rMAPPOPolicy.py文件#根据env_core可知每个agent有14个特征量(obs)。5个动作(action),总共2个agentself.actor = R_Actor(args, self.obs_space, self.act_space, self.device)#actor的输入是一个智能体的输入。即14。

2024-04-03 11:11:49 3626 3

原创 qt.qpa.plugin:Could not load the Qt platform plugin “xcb“

安装较老版本(4.4以下)的opencv又会报错,可能python版本与其不一致,需要安装尽量新版本的。第三种方法,python 3.9改成3.7。先别降低python版本,使用第二种方法。重新安装opencv,最新版本不行。删除报错文件夹的libqxcb文件。发现方法2解决了,方法3没有用到。

2023-11-28 14:57:09 917

原创 安装windows和linux双系统,ubuntu中安装显卡,pytorch

选择第二个enroll mok,然后选择continue,再选择yes,就会出现让输入密码的界面,准确输入你之前设定的secure boot密码,然后选择reboot。在输入密码时,是暗输入的,因此不必惊慌,确保密码正确即可。参考B站一个UP主的保姆级教程:Windows 和 Ubuntu 双系统的安装和卸载,作者:机器人工匠阿杰。版权声明:本文为CSDN博主「☞小星☜」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。,在后面会用到,尽量简单一些,后面是盲输。

2023-11-20 12:24:38 126 1

原创 【windows10下安装GPU版pytorch简明教程,仅需两步骤,以及解决报错:pytorch 无法导入torch加载..\caffe2_nvrtc.dll”或其依赖项之一时出错】

安装GPU版pytorch简明教程,仅需两步骤,以及解决报错:pytorch 无法导入torch加载..\caffe2_nvrtc.dll”或其依赖项之一时出错这里写自定义目录标题

2023-07-16 19:20:02 1142 3

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除