赛亚茂-CSDN博客

先说明该文章对于数学基础要求比较高，大多数的结论数学证明来自于《Mathematical Foundation of Reinforcement Learning》。了解强化学习中一些重要收敛性结论的证明过程，对设计好的强化学习算法以及了解一些强化学习中一些基本结论的由来是大有裨益的。本节将重点介绍一些随机逼近理论中的重要收敛性定理，这些定理将为后面强化学习中重要算法的收敛性分析提供理论基础。

2023-05-30 00:46:15 1098

原创分组一致性领域超级牛的论文！

关于动态领航问题的一个很强的控制策略设计及稳定性证明！

2023-03-08 21:46:00 274 1

原创舰载机着舰交互模型

舰载机与环境交互的模型、包含其本身的六自由度动力学部分、海况、风场情况

2023-03-06 16:45:33 226

原创多智能体集群协同控制笔记（1）:线性无领航多智能体系统的一致性

多智能体集群协同控制笔记（1）:线性无领航多智能体系统的一致性

2023-02-28 22:02:01 1755 1

原创兰彻斯特方程的原理

发现原来兰彻斯特方程的推导是有迹可循的。但是原文章逻辑部分表述的任然有些许不够严密，下面给出完整部分。最近在研究阵形对集群作战的影响，忽然有点启发，通过文章。

2023-02-22 23:44:30 487

在工程领域的被控对象常常是非线性的动力系统。对非线性控制系统x˙fxt的稳定性分析，常常需要将非线性系统线性化成线性系统x˙Atx后，对线性系统设计的控制器放在非线性系统上，达到合适的控制效果。而实际上，这样的线性化后的系统的稳定性常常无法代替原非线性系统的稳定性。只有下时，上述二者才可以划等号。本篇博客重点研究上述非线性系统可线性化的条件（即使得线性化后的系统x˙Atx的稳定性能代替原系统x˙fxt的稳定性）。

2023-02-04 17:37:59 1938

原创部分时变离散系统中的稳定性判据

离散时变系统x(k+1)=A(k)x(k)的稳定性判据。

2023-01-13 11:11:22 1130 1

原创基于强化学习的多智能体任务规划(一)

在这篇文章中，相比于传统的AFSIM，作者开发了一种新的人工智能的系统。相比于传统的AI训练器有充分利用先验知识，训练步长更短更快的特点。在此我们不讨论其系统实现的具体细节，我们仅仅讨论其多智能体条件下的强化学习环境搭建问题。这里的问题是二维多智能体博弈对抗问题(MA2D)。

2022-09-26 12:29:07 4486 4

原创基于强化学习的多战机同SEAD联合作战空战辅助决策(改进版)

多战机对地防空火力压制SEAD的改进版本强化学习环境搭建以及求解。

2022-09-23 16:01:44 1619 4

原创基于强化学习的多战机同SEAD联合作战空战辅助决策

基于强化学习的多战机同SEAD联合作战空战辅助决策环境搭建。

2022-09-22 17:14:55 1242 2

原创战术网络强化学习环境-基于多智能体的场景生成

提出了用于生成实际战术场景的战术模型(Tactical Model)的新概念，可将其作为DRL的输入。将游戏环境设计为一种单位能够通过通信网络共享信息以协调他们的方式策略。使用GNN的方法实现个体周围环境状态的综合。

2022-09-22 16:47:47 1593

原创强化学习：GPU加速DQN玩倒立摆代码

强化学习：GPU加速DQN玩倒立摆代码

2022-09-15 16:26:45 1593 3

原创基于强化学习的空战辅助决策(2D)

空域作战辅助决策的环境搭建

2022-09-09 17:44:30 5419 3

原创连续1D空战辅助决策问题的DDPG实现

DDPG实现空战辅助决策游戏

2022-09-07 13:13:37 860

原创基于强化学习的空域作战辅助决策(1D)

利用强化学习对空域作战进行辅助决策

2022-09-01 13:43:32 1419 2

原创强化学习:PPO求解MountainCar问题通用代码(也适合其他环境)

PPO算法求解小车上山问题

2022-08-27 21:25:25 1349

原创 PPO算法经典论文阅读

首先在论文的引言部分给出了经典的强化学习算法的不足之处:许多的经典强化学习算法在大型的模型、数据采样效率、鲁棒性(无需手动超参调整)上都有很大的提升空间。Q-Learning算法(包括函数逼近类算法)在许多简单问题上应用存在局限性,例如要满足状态空间与动作空间的离散型要求，并且其理解起来也是一件很困难的事情、而vanilla policy gradient算法的数据效率与鲁棒性较差、置信域优化算法(TRPO)相对来说比较复杂，而且对于包含噪声或参数共享(在策略函数与价值函数之间有其他的辅助任务需求)的网

2022-08-23 21:43:00 3866