引言
强化学习与最优化是两种常见的策略设计方法,广泛应用于自动控制、机器人学等领域。它们在无人机轨迹控制、机器人操作等任务中展现了各自的优势。
例如,如图1所示,浙江大学发表在《Science Robotics》上的“Swarm of micro flying robots in the wild”[1]和香港大学发表在《IEEE Transactions on Robotics》上的“FAPP: Fast and Adaptive Perception and Planning for UAVs in Dynamic Cluttered Environments”[2]利用最优化方法分别实现了无人机轨迹规划穿越竹林、密集环境动态避障。
而如图2所示,苏黎世大学发表在《Nature》上的"Champion-level Drone Racing using Deep Reinforcement Learning”[3]则通过强化学习训练无人机,使其在竞速中击败了人类冠军。清华大学发表在《CoRL》上的“Learning to Manipulate Anywhere: A Visual Generalizable Framework For Reinforcement Learning”[4]则展示了强化学习在跨视角操作任务中的潜力。这些研究表明,强化学习和最优化在不同场景下各有优劣。本文将从两者的区别以及效果差异出发,探讨如何在实际应用中选择合适的方法。
©️【深蓝AI】编译
▲图1 | (a)无人机轨迹规划穿越竹林,(b)密集环境动态避障©️【深蓝AI】编译
▲图2 | (a)强化学习无人机在竞速比赛中击败人类冠军,(b)强化学习控制机械臂实现跨视角操作任务©️【深蓝AI】编译
强化学习与最优化的区别
1.