- 博客(123)
- 资源 (13)
- 收藏
- 关注
原创 Weighted A* 改进型(1):XDP
本文的主要内容来自于文献[1],总的来说这篇文献给我的感觉就是理论证明非常精妙,最后的实际效果也是提升的非常明显。
2024-06-13 15:51:20 699
原创 彻底吃透A*算法的最优性
下面的博客将主要介绍A*算法在扩展结点(这对于寻路时间很重要)和总代价(这对于保证最后解的最优性很重要)上的最优性,并将淡化对A *完备性的介绍。
2024-06-05 13:12:49 1157
原创 强化学习中的重要收敛性结论(1):常用定理
先说明该文章对于数学基础要求比较高,大多数的结论数学证明来自于《Mathematical Foundation of Reinforcement Learning》。了解强化学习中一些重要收敛性结论的证明过程,对设计好的强化学习算法以及了解一些强化学习中一些基本结论的由来是大有裨益的。本节将重点介绍一些随机逼近理论中的重要收敛性定理,这些定理将为后面强化学习中重要算法的收敛性分析提供理论基础。
2023-05-30 00:46:15 1098
原创 兰彻斯特方程的原理
发现原来兰彻斯特方程的推导是有迹可循的。但是原文章逻辑部分表述的任然有些许不够严密,下面给出完整部分。最近在研究阵形对集群作战的影响,忽然有点启发,通过文章。
2023-02-22 23:44:30 487
原创 连续非线性系统线性化理论
在工程领域的被控对象常常是非线性的动力系统。对非线性控制系统x˙fxt的稳定性分析,常常需要将非线性系统线性化成线性系统x˙Atx后,对线性系统设计的控制器放在非线性系统上,达到合适的控制效果。而实际上,这样的线性化后的系统的稳定性常常无法代替原非线性系统的稳定性。只有下时,上述二者才可以划等号。本篇博客重点研究上述非线性系统可线性化的条件(即使得线性化后的系统x˙Atx的稳定性能代替原系统x˙fxt的稳定性)。
2023-02-04 17:37:59 1938
原创 基于强化学习的多智能体任务规划(一)
在这篇文章中,相比于传统的AFSIM,作者开发了一种新的人工智能的系统。相比于传统的AI训练器有充分利用先验知识,训练步长更短更快的特点。在此我们不讨论其系统实现的具体细节,我们仅仅讨论其多智能体条件下的强化学习环境搭建问题。这里的问题是二维多智能体博弈对抗问题(MA2D)。
2022-09-26 12:29:07 4486 4
原创 战术网络强化学习环境-基于多智能体的场景生成
提出了用于生成实际战术场景的战术模型(Tactical Model)的新概念,可将其作为DRL的输入。将游戏环境设计为一种单位能够通过通信网络共享信息以协调他们的方式策略。使用GNN的方法实现个体周围环境状态的综合。
2022-09-22 16:47:47 1593
原创 PPO算法经典论文阅读
首先在论文的引言部分给出了经典的强化学习算法的不足之处:许多的经典强化学习算法在大型的模型、数据采样效率、鲁棒性(无需手动超参调整)上都有很大的提升空间。Q-Learning算法(包括函数逼近类算法)在许多简单问题上应用存在局限性,例如要满足状态空间与动作空间的离散型要求,并且其理解起来也是一件很困难的事情、而vanilla policy gradient算法的数据效率与鲁棒性较差、置信域优化算法(TRPO)相对来说比较复杂,而且对于包含噪声或参数共享(在策略函数与价值函数之间有其他的辅助任务需求)的网
2022-08-23 21:43:00 3866
原创 强化学习:Reinforce with Baseline求解MountainCar-v0小车上山问题
A2C网络求解MountainCar-v0问题
2022-08-12 21:47:09 1083 1
原创 强化学习:带MonteCarlo的Reinforce求解MountainCar问题
强化学习中利用策略梯度求解MountainCar问题,和官方差不多,标准化可以显著提高收敛速度。
2022-08-09 17:58:40 689
原创 强化学习:函数逼近动作价值函数中的半梯度下降法实现流程思维导图(结合TD算法)
强化学习:函数逼近动作价值函数中的半梯度下降法实现流程思维导图(结合TD算法)
2022-07-28 09:48:03 235
多重积分计算方法GUI.zip
2020-10-29
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人