入选ICLR‘25 Spotlight!深度强化学习(DRL)迎来新突破!

近年来,深度强化学习相关的成果在顶会顶刊上接受度普遍较高,经常上榜ICLR、Nature、Science等。比如ICLR 2025上的一篇Spotlight,由清华团队提出,介绍了一种SmODE网路,让深度强化学习的控制更加丝滑!

另外还有复旦、同济等联合提出的全新社区布局生成方法,也是基于深度强化学习...从这些成果来看,目前关于深度强化学习的研究多围绕应用、算法自身改进,以及与其他技术结合,尤其是结合注意力机制、GNN等,因为可以明显提升算法性能,已经成了顶会的大热选题。

如果想深入挖掘,除了以上这些角度,也可以考虑伦理与安全研究,比如公平性、隐私保护,更贴合社会需求。如果需要参考,可直接拿我整理的11篇深度强化学习新论文,代码基本有,无偿分享。

全部论文+开源代码需要的同学看文末

ODE-based Smoothing Neural Network for Reinforcement Learning Tasks

方法:论文提出了一种基于ODE的平滑神经网络(SmODE),用于深度强化学习任务,以解决控制动作不平滑的问题。SmODE通过低通滤波结构和可学习的状态依赖函数来抑制动作波动,并兼容多种强化学习算法。实验证明其在抗干扰和动作平滑性方面优于传统网络架构。

创新点:

  • 提出了一种基于常微分方程的平滑神经元,能够动态过滤高频噪声并控制神经元的Lipschitz常数。

  • 构建了SmODE网络,该网络包含输入模块、平滑ODE模块和输出模块,适用于多种强化学习算法。

  • 在车辆轨迹跟踪、线性二次调节器和Mujoco机器人控制任务中验证了SmODE网络的优越性能。

Deep reinforcement learning for community architectural layout generation

方法:论文提出了一种基于深度强化学习的方法,通过多智能体协作和课程学习策略,优化社区建筑布局的生成。该方法利用智能体动态调整建筑位置,并通过奖励函数引导布局的美观性和合理性,显著优于传统方法和其他基线方法。

创新点:

  • 提出了一种基于深度强化学习的多智能体方法,用于社区建筑布局生成,能够动态调整建筑位置以优化整体布局。

  • 引入课程学习策略,分阶段引导智能体训练,帮助平衡多个设计目标,提升模型性能。

  • 设计了一个智能体序列生成器,优化智能体的动作顺序,提高在大规模复杂环境中的探索效率。

Learning agile soccer skills for a bipedal robot with deep reinforcement learning

science子刊(一区)

方法:论文使用深度强化学习训练微型仿人机器人踢足球,通过两阶段训练(先分别学习基础技能,再整合到一起),并结合模拟训练和零样本迁移,让机器人在现实环境中展现出优于传统控制器的敏捷运动技能。

创新点:

  • 采用两阶段训练,先分别学习起身和进球技能,再通过自我对弈整合技能。

  • 实现了从模拟到现实机器人的零样本迁移,让机器人在现实环境中表现良好。

  • 机器人在关键行为上优于传统基线控制器,展现出更高的运动效率和适应性。

Task Delay and Energy Consumption Minimization for Low-altitude MEC via Evolutionary Multi-objective Deep Reinforcement Learning

方法:本文提出了一种基于进化多目标深度强化学习的方法,用于优化低空无人机辅助移动边缘计算系统中的任务延迟和能耗。通过将问题建模为多目标马尔可夫决策过程,并结合模拟退火算法简化任务调度,再利用进化多目标DRL框架和目标分布学习算法,动态调整权重并优化策略,最终实现了稳定的Pareto最优解。

创新点:

  • 提出进化多目标深度强化学习框架,解决无人机辅助MEC中的任务延迟和能耗问题。

  • 使用模拟退火算法简化任务调度,将其转化为有效的MOMDP,降低问题复杂度。

  • 结合目标分布学习优化策略更新,提高算法的稳定性和收敛性能。

关注下方《学姐带你玩AI》🚀🚀🚀

回复“222”获取全部方案+开源代码

码字不易,欢迎大家点赞评论收藏

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值