蓝天白云大海沙滩Herman-CSDN博客

原创强化学习中的MASK掩码约束动作action

参考1、虽然可以制定相应的奖励函数，但是强化学习模型还是努力去学。2、因此，在大多数RL落地的场景下，都会使用MASK掩码方法解决动作约束的问题在强化学习解决问题的场景中，动作是体现学习效果最直接的因素，直接影响了智能体下一步的走向和对环境状态的改变。在应用强化学习解决实际问题时，往往不同于gym库中倒立摆那样的情况，而是存在很多的约束。

2024-05-07 11:32:11 2219

原创各大池化Pooling操作，以及python实践，学习笔记

以上就是对于池化的简单了解。首先介绍了一下池化的基本知识，主要介绍的是最大池化和平均池化。然后通过代码的方式分别记录了使用自适应池化和非自适应池化的区别。池化作为深度学习中常用的一种方法，具有对于模型的优化具有重要意义。事实上，池化的种类是非常多的，但是在Pytorch中并未提供所有的方法。一方面我们可以根据Pytorch中已有的池化方法，调整其中的参数来实现我们想要的池化方法；另一方面，我们也应该学会在已有方案都无法实行的情况下，能够自己方法原理设计池化层。

2024-04-26 00:11:24 1711 1

原创深度学习embedding方法，降维，以及pytorch中使用embedding

形式上讲，Embedding就是用。

2024-04-24 22:46:10 8530

原创强化学习基础算法介绍，DQN，策略梯度算法，Actor-Critic算法

在 Q-learning 算法中，我们以矩阵的方式建立了一张存储每个状态下所有动作值的表格。表格中的每一个动作价值表示在状态s下选择动作a然后继续遵循某一策略预期能够得到的期望回报。然而，这种用表格存储动作价值的做法只在环境的状态和动作都是离散的，并且空间都比较小的情况下适用，我们之前进行代码实战的几个环境都是如此（如悬崖漫步）。当状态或者动作数量非常大的时候，这种做法就不适用了。例如，当状态是一张 RGB 图像时，假设图像大小是210x160x3，此时一共有种状态。

2024-04-05 21:13:40 1951 1

转载强化学习算法的分类

另一方面，在实际应用中，学习得到的模型往往是不准确的，这给智能体训练引入了估计误差，基于带误差模型的策略的评估和提升往往会造成策略在真实环境中失效。一些常见的Actor-Critic类的算法包括Actor-Critic（AC）算法(Suttonetal., 2018) 和一系列改进：（1）异步优势Actor-Critic算法（A3C）(Mnihetal.,2016)将Actor-Critic 方法扩展到异步并行学习，打乱数据之间的相关性，提高了样本收集速度和训练效率；与基于模型的方法相比，

2024-04-05 17:14:40 1557 1

原创强化学习基本概念及公式推导

马尔可夫决策过程（Markov decision process，MDP）是强化学习的重要概念。要学好强化学习，我们首先要掌握马尔可夫决策过程的基础知识。前两章所说的强化学习中的环境一般就是一个马尔可夫决策过程。与多臂老虎机问题不同，马尔可夫决策过程包含状态信息以及状态之间的转移机制。如果要用强化学习去解决一个实际问题，第一步要做的事情就是把这个实际问题抽象为一个马尔可夫决策过程，也就是明确马尔可夫决策过程的各个组成要素。本章将从马尔可夫过程出发，一步一步地进行介绍，最后引出马尔可夫决策过程。

2024-04-05 16:53:55 2461 2

转载强化学习算法入门-基本思想, 强化学习与监督学习的异同点

广泛地讲，强化学习是机器通过与环境交互来实现目标的一种计算方法。机器和环境的一轮交互是指，机器在环境的一个状态下做一个动作决策，把这个动作作用到环境当中，这个环境发生相应的改变并且将相应的奖励反馈和下一轮状态传回机器。这种交互是迭代进行的，机器的目标是最大化在多轮交互过程中获得的累积奖励的期望。强化学习用智能体（agent）这个概念来表示做决策的机器。相比于有监督学习中的“模型”，强化学习中的“智能体”强调机器不但可以感知周围的环境信息，还可以通过做决策来直接改变这个环境，而不只是给出一些预测信号。

2024-04-04 21:12:18 279 1

原创 PPO(Proximal Policy Optimization)算法原理及实现,详解近端策略优化

接着上面的讲，PG方法一个很大的缺点就是参数更新慢，因为我们每更新一次参数都需要进行重新的采样，这其实是中on-policy的策略，即我们想要训练的agent和与环境进行交互的agent是同一个agent；与之对应的就是off-policy的策略，即想要训练的agent和与环境进行交互的agent不是同一个agent，简单来说，就是拿别人的经验来训练自己。举个下棋的例子，如果你是通过自己下棋来不断提升自己的棋艺，那么就是on-policy的，如果是通过看别人下棋来提升自己，那么就是off-policy的。

2024-04-04 10:20:13 95906 13

weixin_41106546的博客

原创强化学习中的MASK掩码约束动作action

原创各大池化Pooling操作，以及python实践，学习笔记

原创深度学习embedding方法，降维，以及pytorch中使用embedding

原创强化学习基础算法介绍，DQN，策略梯度算法，Actor-Critic算法

转载强化学习算法的分类

原创强化学习基本概念及公式推导

转载强化学习算法入门-基本思想, 强化学习与监督学习的异同点

原创 PPO(Proximal Policy Optimization)算法原理及实现,详解近端策略优化

原创 MAPPO算法流程和代码解读

原创 qt.qpa.plugin:Could not load the Qt platform plugin “xcb“

原创安装windows和linux双系统，ubuntu中安装显卡，pytorch

原创【windows10下安装GPU版pytorch简明教程，仅需两步骤，以及解决报错：pytorch 无法导入torch加载..\caffe2_nvrtc.dll”或其依赖项之一时出错】

空空如也

空空如也