多智能体集群
文章平均质量分 91
qq_41414353
这个作者很懒,什么都没留下…
展开
-
【文献学习】强化学习3:基于数据的方法
参考文献:[1]《强化学习》.邹伟,等.(鳄鱼书)原创 2021-11-24 16:04:59 · 1328 阅读 · 0 评论 -
【文献学习】强化学习2:基于策略函数的方法
参考文献:[1]《强化学习》,邹伟,等.(鳄鱼书)随机策略梯度(其实这一部分我没看懂,整理下来还是乱,但愿有懂的大神愿意教教我)策略梯度的优点:1.适用于连续动作空间场景;2.策略搜索方法具有更好的收敛性;2.策略搜索方法更简单;3.策略搜索方法可以学到随机策略。只有针对状态可完美观测或使用的特征可以完美描述状态的情况,才有对于任何MDP总有一个确定性策略当发生状态崇明无法区分或使用的近似函数里描述状态的特征值限制了对状态的完美描述时,智能体得到的状态信息等效于部分观测的环境信息,问题不具备马尔科夫性原创 2021-11-22 23:04:17 · 827 阅读 · 0 评论 -
【文献学习】强化学习1:基于值函数的方法
参考文献:《机器学习》,周志华(西瓜书)(今天看书总是走神,干脆总结一下,希望帮自己理清思路。如果碰巧能被大神看到,如有不正确或不严谨之处,万望指教!)动态规划法动态规划法是典型的有模型强化学习算法,即模型已知,对任意状态xxx,x′x'x′和动作aaa,在xxx状态下执行动作aaa转移到x′x'x′状态的概率Px→x′aP_{x→x'}^aPx→x′a是已知的,该转移所带来的奖赏Rx→x′aR_{x→x'}^aRx→x′a也是已知的。在每执行一步策略后就进行值函数的更新。1.策略评估Vπ(原创 2021-11-19 23:07:24 · 975 阅读 · 0 评论 -
【文献学习】基于动作规划和强化学习的多智能体集群
采用强化学习作为局部路径规划,动作选择的策略供应器,整体集群算法采用势函数法。是La.文章的再发展。原创 2021-11-08 11:24:41 · 621 阅读 · 0 评论 -
【文献学习】多智能体合作学习捕食者避撞
结合强化学习与集群控制制作混合系统。强化学习用于寻找集群躲避捕食者(predator)逃跑方向,集群控制作为整个集群每个个体的控制主算法。原创 2021-11-02 16:10:24 · 514 阅读 · 3 评论