- 博客(26)
- 收藏
- 关注
原创 A3C框架
基于AC框架的算法很难收敛,因此可以采用DQN的经验回放的方法降低数据间的相关性,基于这种思想A3C算法采用异步的思想降低数据间的差异性,具体做法:在多个线程里与环境进行交互,将每个线程内的交互的经验收集起来,共同保存,指导所有智能体与环境进行交互。,优势函数其实就是将Q值归一化到Value baseline上,包括全局的网络架构和n个worker线程,
2024-03-02 09:37:42 894
原创 10MARL深度强化学习 Value Decomposition in Common-Reward Games
中心化价值函数能够缓解一些多智能体强化学习当中的问题,如非平稳性、局部可观测、信用分配与均衡选择等问题,然而存在很难直接学习价值函数等问题,特别是动作价值函数难以学习,原因是联合动作空间随智能体个数呈指数增长的问题,因此本文章学习如何有效的学习价值函数且最大化共同和奖励过程。
2024-02-22 00:03:01 945
原创 08MARL深度强化学习 independent learning
记录independent learning算法的基础概念,使用一些RL算法训练多智能体。
2024-02-19 20:55:12 932
原创 04MARL - priori kownledge and challenge
此篇笔记记录了MRAL一般训练流程中的成分以及目前的挑战和模型的类型等。
2024-01-30 16:48:23 921 1
原创 策略梯度方法
策略梯度学习,介绍基于价值与基于策略的RL,如何基于策略梯度进行优化,包括AC框架的介绍。策略梯度算法是基于策略的方法,其对策略进行了参数化。假设参数为θ\thetaθ的策略为πθ\pi_\thetaπθ,该策略为随机性策略,其输入某个状态,输出一个动作的概率分布。策略梯度算法不需要在动作空间中最大化价值,因此较为适合解决具有高维或者连续动作空间的问题。
2023-12-27 17:14:58 1219 1
原创 model free TD-control(Sarsa、Q-learning)
RL学习、基于TD的方法求解最优策略,包括Sarsa与Q-learning针对TD与DP进行比较,sarsa相当于采用贝尔曼期望方程进行迭代,而Q-learning采用贝尔曼最优方程进行迭代。
2023-12-25 16:12:18 975
原创 model free Monte Carlo-control
RL入门学习,MC迭代优化策略,得到最优策略采用on-policy MC方法进行策略优化。
2023-12-25 15:19:03 888
原创 Distributed Heuristic Multi-Agent Path Finding with Communication
应用RL在局部可观察的环境下学习去中心化的策略是近几年的方法,在拥堵的情况下学习到避免碰撞的策略是一大挑战。本文提出了一种结合通信与DQN的路径规划算法,agent之间通过图卷积实现协作。同时嵌入潜在的选择单源的最短路径作为启发式的指导,单独的训练每个智能体,将训练好的策略应用到每个智能体当中分散执行。
2023-12-18 23:38:49 1114 1
原创 多智能体路径规划综述(万字长文解读)--2022
多智能体路径规划(multi-agent path finding,MAPF)是为多个智能体规划路径的问题,关键约束是多个智能体同时沿着规划路径行进而不会发生冲突按照规划方式不同:MAPF算法分为集中式规划算法和分布式规划算法,集中式规划算法是最经典和最常用的MAPF算法,主要分为基于A*搜索、基于冲突搜索、基于代价增长树和基于规约四种算法;分布式执行算法分为专家演讲型,改进通信型和任务分解型三种算法虽然经典的集中式规划算法是目前最常用的也是效率最高的算法。基于多智能体深度强化学习的分布式执行算法在。
2023-11-10 23:24:52 7809 1
原创 多智能体深度强化学习综述笔记
多智能体深度强化学习是机器学习领域的一个新兴研究热点与应用方向,覆盖众多算法、规则、框架、并广泛应用于自动驾驶、能源分配、编队控制、路径规划、社会难题等领域,具有很高的研究价值与意义。
2023-11-09 00:11:57 1195 1
原创 衔接上篇文章,手打几行代码验证mmdet安装是否成功
如果没有安装openmim包就无法使用上述命令,可以先pip install openmim,便可以使用,终端输出结果如下:在这里可以得到yolof的config id,复制此id用于下载模型的configs与参数。继续在终端输入命令:mim download mmdet --config yolof_r50_c5_8x8_1x_coco --dest .
2023-05-21 22:20:13 602 4
原创 最新版mmdetection3.0环境配置详细版win11
上述过程是配置mmdetection环境的所有步骤,由于本人属于小白阶段,如有问题请指出,定虚心请教。
2023-05-20 16:01:06 1460 9
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人