![](https://img-blog.csdnimg.cn/20190918140213434.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
文献阅读
文章平均质量分 93
师夷长技
大鱼治不了水
每天努力一点点,每天进步一点点。
展开
-
Kalman Fuzzy Actor-Critic Learning Automaton Algorithm for the Pursuit-Evasion Differential Game
论文地址:Kalman Fuzzy Actor-Critic Learning Automaton Algorithm for the Pursuit-Evasion Differential Game摘要使用模糊actor-critic和卡尔曼滤波技术解决追击(PE)问题,两个或两个以上的追捕者追击一个逃跑者。actor和critic都是模糊推理系统(FIS),卡尔曼滤波被用来估计逃跑者的下一个位置,追捕者根据这个估计找到逃跑者的运动方向,以避免他们之间的碰撞,减少捕获时间。假设每个追捕者只知道逃跑原创 2022-01-06 09:20:13 · 2448 阅读 · 0 评论 -
论文阅读—《Fuzzy Reinforcement Learning Algorithm for the Pursuit-Evasion Differential Games 》
论文链接:Fuzzy Reinforcement Learning Algorithm for the Pursuit-Evasion DifferentialGames with Superior Evader摘要本文提出了一种模糊强化学习技术,该技术使追逃(PE)差分游戏中的追捕者群体能够学习如何以分散的方式捕获单个优秀的逃跑者。逃跑者的优势在于它的最大速度,超过游戏中最快追捕者的速度。文章使用了fuzzy actor-critic learnong Automaton (FACLA)算法以及Ap原创 2021-12-30 20:10:15 · 1979 阅读 · 0 评论 -
论文阅读:MAPEL: Multi-Agent Pursuer-Evader Learning using Situation Report
MAPEL: Multi-Agent Pursuer-Evader Learning using Situation Report论文:MAPEL: Multi-Agent Pursuer-Evader Learning using Situation Report项目地址:MAPEL: Multi-Agent Pursuer-Evader Learning using Situation Report摘要在疆土防御游戏中,包括追捕者,逃跑者以及守卫目标。追捕者的任务是在逃跑者到达目标之前抓住逃跑者原创 2021-12-29 16:49:51 · 557 阅读 · 1 评论 -
MADDPG论文学习
摘要传统算法用于多智能体环境下的困难:Q-learning受到环境不稳定性的挑战策略梯度的方法随着智能体数量增加,方差变大。本文的贡献:提出了一种actor-critic方法的变种:在考虑其他智能体action-policy的同时,能够学习到需要多智能体的协同policy;引入了一种训练方式,集成了各智能体的policy,来形成一个更加鲁棒的多智能体policy。在既合作又竞争的场景下进行测试,验证在这种场景下,智能体集群能够学习到物理和信息层面的合作策略。...原创 2021-12-20 20:52:09 · 1728 阅读 · 0 评论 -
Large-Scale Order Dispatch in On-Demand Ride-Hailing Platforms: A Learning and Planning Approach
[Large-Scale Order Dispatch in On-Demand Ride-HailingPlatforms: A Learning and Planning Approach]《Large-Scale Order Dispatch in On-Demand Ride-HailingPlatforms: A Learning and Planning Approach》论文Abstract我们在大型按需叫车平台中提出了一种新颖的订单调度算法。虽然传统的订单调度方法通常侧重于即时的客原创 2021-07-12 20:03:29 · 1468 阅读 · 0 评论