论文项目:基于策略差异化的多智能体强化学习内在奖励研究

1,渐进式多样化策略在多智能体强化学习中的应用

最近,多智能体强化学习(MARL)在许多协作决策任务中取得了令人兴奋的表现。然而,MARL面临的主要瓶颈挑战之一是团队奖励的稀疏性,这可能导致智能体行为的同质化。为了解决这些问题,本文提出了一种渐进式多样化策略(PDP)算法。具体来说,我们在学习过程中积极放大智能体策略之间的多样性,并将多样性作为MARL的额外内在奖励来利用。此外,我们提出了一种渐进式多样性增强策略来寻找更好的团队策略。利用上述改进,我们的方法可以处理稀疏团队奖励,并减轻智能体的同质化行为。我们在广泛使用的MARL环境上进行了实验,结果表明,PDP可以提供最先进的性能,同时保持竞争性的收敛速度。

2,基于时间不一致性的内在奖励在多智能体强化学习中的应用

多智能体强化学习(MARL)在许多具有挑战性的序列决策任务中展现出了令人兴奋的结果。最近,深度神经网络在这个领域占据主导地位。然而,在训练阶段,智能体的策略网络可能会陷入局部最优解,这严重限制了探索性能。为了解决这个问题,我们提出了一个名为PSAM的新型MARL学习框架,其中包含一个新的基于时间不一致性的内在奖励和多样性控制策略。具体来说,我们保存智能体策略网络优化路径上的深度模型参数,这些参数可以表示为快照。通过测量快照之间的差异,我们可以将差异作为内在奖励。此外,我们提出了一种多样性控制策略来进一步提高性能。最后,为了验证所提出方法的有效性,我们在几个广泛使用的MARL环境中进行了大量实验。结果显示,在许多环境中,PSAM不仅可以实现最先进的性能并防止策略网络陷入局部最小值,而且还可以加速智能体学习策略。值得注意的是,所提出的正则化器可以以即插即用的方式使用,而不需要引入任何额外的超参数和训练成本。

3,基于集体激励的多智能体强化学习策略

合作型多智能体强化学习(MARL)已成为应对复杂控制任务的有效工具。然而,在MARL中,稀疏的团队奖励存在显著挑战,导致学习性能受限、探索效率低下以及个体智能体行为同质化。为了克服这些问题,我们提出了一种新颖的基于领导者-合作者(LC)的MARL框架,受到人类社会协作的启发。LC框架引入了基于策略网络(KDPN)的并行在线知识蒸馏机制。它同时利用最大化个体奖励和最大化团队奖励的网络分支,构建出团队领导者和团队合作者,并在其间实现奖励平衡。这种方法类似于选择主要智能体来指导群体行动,并通过促进个体之间的多样性来平衡个体和群体奖励。此外,我们提出了自修复和自增强策略,以便在保留初始团队目标的同时促进团队政策学习。我们通过在多智能体粒子环境(MPE)和星际争霸多智能体挑战(SMAC)中进行实验,并设置了不同难度的实验场景,来评估LC框架的有效性。广泛的实验结果表明,LC显著提高了智能体探索的效率,达到了最先进的性能水平,并加速了最优策略的学习。

4,基于交互式多任务学习的中文文本情感分类

本文提出了一种交互式多任务学习的中文文本情感分类方法,充分利用两个任务之间的交互关系,同时解决情感词典扩展和情感分类两个任务。方法将文本情感分类和情感词典扩展分成主任务和副任务,在主任务中采用了Ernie模型作为文本表示学习模型,然后通过最大池化层和全连接层完成文本情感分类任务,而副任务中则采用经典的BiLSTM+attention+CRF模型从文本中提取情感词语;此外,方法还引入了多任务信息交互机制,将来自主副任务的预测信息重新反馈给两个任务共享的潜在表示,通过反复的迭代训练,进一步优化两个任务的性能。 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

燕双嘤

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值