强化学习+多目标优化,是热度不断飙升的方向,且自带创新基因!
多目标优化的引入,为强化学习提供了新研究方向和应用场景;强化学习则为多目标优化,提供了新的解决思路和方法。具体点说,以往强化学习只关注单一目标的优化,限制了在实际中的运用,而多目标优化的策略也比较有限。当两者结合,便能给我们的论文创新提供诸多机会,比如结合智能交通、医疗健康、金融等领域的数据集,进行微创新,就能发文。
此外,这两者结合,在提升模型解决复杂问题时的性能和效率方面,优势显著!比如模型MOAVOA-MADDPG,便通过该方法,在电网资源规划任务中性能狂提154%!
目前热门的思路有:深度强化学习+多目标优化、自适应权重调整、拓展应用领域……为方便大家研究的进行,我给大家准备了11篇必读论文和源码!
论文原文+开源代码需要的同学看文末
Reducing idleness in financial cloud services via multi-objective evolutionary reinforcement learning based load balancer
内容:本文提出了一种基于多目标进化强化学习的负载均衡器(MERL-LB),旨在减少金融云服务中的服务器空闲时间,同时保持负载均衡。研究针对金融场景中用户连接不能被强制断开的特点,设计了一个可扩展的神经网络策略,通过预测用户连接时长并优化服务器资源分配,实现了在不中断用户连接的情况下显著降低服务器空闲时间(相比传统方法降低超过130%),同时提升了负载均衡性能。实验通过模拟真实金融数据服务场景,验证了该方法在不同负载和服务器数量下的稳定性和有效性,并观察到其决策策略呈现锯齿波模式,为未来设计新型启发式算法提供了思路。
Constrained Multi-objective Optimization with Deep Reinforcement Learning Assisted Operator Selection
内容:本文提出了一种基于深度强化学习(DRL)辅助的算子选择框架,用于解决约束多目标优化问题(CMOPs)。该框架通过将种群的动态特性(包括收敛性、多样性和可行性)视为状态,候选算子视为动作,种群状态的改进视为奖励,利用深度Q网络(DQN)学习策略以自适应选择最优算子。该方法被嵌入到四种流行的约束多目标进化算法(CMOEAs)中,并在42个基准问题上进行评估。实验结果表明,DRL辅助的算子选择显著提升了CMOEAs的性能,并在与九种最先进的CMOEAs的比较中展现出更好的通用性。
MORL4PDEs: Data-driven discovery of PDEs based on multi-objective optimization and reinforcement learning
内容:本文提出了一种名为MORL4PDEs的新方法,用于数据驱动的偏微分方程(PDE)发现。该方法结合了多目标优化和强化学习,通过符号回归从数据中直接发现简约的PDE,无需预先建立候选函数库。具体而言,该方法利用神经网络生成二叉树的前序遍历序列以获得PDE表达式,并将其作为多目标遗传算法的初始种群,以确保方程的准确性和简洁性。同时,通过强化学习优化神经网络,以PDE的最终表达式作为奖励。实验结果表明,该方法能够有效识别不同动态系统中的控制方程,包括复杂形式和高阶导数的PDE。
Personalized robotic control via constrained multi-objective reinforcement learning
内容:本文提出了一种基于约束多目标强化学习(CMORL)的个性化机器人控制方法。该方法通过约束多目标马尔可夫决策过程(CMOMDP)框架,结合非线性约束设计,使机器人能够根据用户指定的偏好学习最优控制策略。此外,文章还设计了一个基于超体积和香农-维纳多样性指数的综合指标,用于衡量学习到的控制策略的收敛性、多样性和均匀性。实验结果表明,该方法在九个多目标端到端机器人控制任务中表现出色,能够生成更多样化的帕累托最优控制策略。
码字不易,欢迎大家点赞评论收藏!
关注下方《AI科研技术派》
回复【强化多目标】获取完整论文
👇