普通网友
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
24、探索机器人技术中的机器学习归纳偏置:开放问题与未来工作
本博客探讨了机器人技术中结合机器学习归纳偏置的关键问题与未来方向。重点分析了学习动态模型和鲁棒策略的现有方法(如DiffNEA和DeLaN),并讨论了其在处理接触模型、广义坐标、优化损失以及守恒定律方面的局限性。针对这些问题,提出了多个未来研究方向,包括扩展接触建模能力、改进非结构化观察的处理、优化对抗性损失函数以及从数据中自动发现物理对称性和守恒定律。此外,还讨论了如何提升鲁棒策略的探索能力,并实现从模拟到现实的有效迁移。通过解决这些开放性问题,旨在提升机器人系统在复杂现实任务中的性能、鲁棒性和泛化能力。原创 2025-07-15 11:47:20 · 27 阅读 · 0 评论 -
23、结合归纳偏置与机器学习提升机器人控制性能
本文探讨了结合归纳偏置与机器学习方法提升机器人控制性能的新策略,重点介绍了可微分牛顿-欧拉算法(DiffNEA)、深度拉格朗日网络(DeLaN)和鲁棒拟合值迭代(rFVI)三种算法的原理、优势及实验结果。这些方法在物理一致性、能量守恒和鲁棒性方面各具特色,并在多个实际任务中展现出卓越性能。文章还展望了未来研究方向,包括扩展到接触丰富的任务、高维系统以及自动发现守恒定律等,为应对现实世界复杂挑战提供了新思路。原创 2025-07-15 11:47:12 · 36 阅读 · 0 评论 -
22、深度学习与机器人控制中的鲁棒策略优化
本博客深入探讨了在连续时间系统中如何通过数学推导获得最优策略和最佳对手,以提升机器人控制中的鲁棒性。内容涵盖动态仿射与奖励分离条件、HJB/HJI方程推导最优策略、对抗性干扰下的鲁棒优化、改进探索机制、物理启发模型与深度学习的结合,以及在Furuta摆锤和卡特波尔等典型机器人任务中的应用实验。此外,还讨论了自适应可接受集合、高维系统优化和从数据中学习对称性与守恒定律的未来方向。原创 2025-07-14 16:39:27 · 64 阅读 · 0 评论 -
21、连续时间拟合值迭代用于鲁棒策略
本文提出了一种新的方法——连续拟合值迭代(cFVI)和鲁棒拟合值迭代(rFVI),通过值迭代解决HJB和HJI微分方程,适用于连续状态和动作空间。实验结果表明,这两种算法可以学习到最优策略,并且在物理系统上的表现优于标准的深度强化学习方法。rFVI策略在面对物理参数变化时尤为稳健,能够可靠地完成任务。尽管这些算法在当前应用中表现出色,但仍有一些局限性需要在未来的工作中加以改进,如自适应可接受集合和改进的探索机制。原创 2025-07-13 13:37:12 · 41 阅读 · 0 评论 -
20、探讨鲁棒拟合值迭代与连续拟合值迭代算法的局限性与改进方向
本文探讨了鲁棒拟合值迭代(rFVI)和连续拟合值迭代(cFVI)算法的局限性与改进方向。重点分析了最坏情况优化带来的高刚性策略问题、状态分布对性能的影响以及探索机制的不足,并提出了通过调整可接受集合、结合动态规划与在线评估、引入对抗性探索等方法来改进算法性能。同时,讨论了如何将动态模型学习(如DeLaN和HNN)与策略优化相结合,以应对高维系统和复杂任务场景。最后,展望了未来研究方向,包括自动发现守恒定律、处理接触丰富的任务以及学习非结构化观察等。原创 2025-07-12 10:35:11 · 22 阅读 · 0 评论 -
19、深入探讨连续时间拟合值迭代在鲁棒策略中的应用
本博客深入探讨了连续时间拟合值迭代(FVI)在鲁棒策略中的应用,介绍了连续时间强化学习的基本概念及其发展,包括Doya的开创性工作以及基于轨迹和状态空间的方法。同时详细分析了FVI的历史、扩展及在高频控制任务中的表现,并讨论了如何通过改变优化目标、引入对手、随机化模拟以及优化对抗性损失等方法提高策略的鲁棒性和泛化能力。此外,还涉及改进探索机制、从数据中推断守恒定律与对称性等内容,并总结了实验验证结果与未来研究方向。原创 2025-07-11 09:34:04 · 29 阅读 · 0 评论 -
18、连续时间拟合值迭代在鲁棒控制中的实验评估
本文评估了连续时间拟合值迭代(cFVI)和鲁棒拟合值迭代(rFVI)算法在非线性控制任务中的性能,特别是在仿真到现实(Sim2Real)转移中的表现。实验使用了欠驱动系统(如摆杆车和Furuta摆锤),验证了rFVI策略在物理参数变化时的鲁棒性。此外,文章探讨了n步价值目标、局部二次价值函数结构以及对手扰动对策略性能的影响,并总结了探索行为改进的方向。结果表明,rFVI在面对模型不确定性时具有显著优势,适合应用于实际物理系统的控制。原创 2025-07-10 12:09:30 · 26 阅读 · 0 评论 -
17、连续拟合值迭代:迈向最优和鲁棒控制策略
本文介绍了连续拟合值迭代(cFVI)和鲁棒拟合值迭代(rFVI),这两种方法通过解析解、优化价值函数表示和改进探索机制,为解决连续时间强化学习中的最优与鲁棒控制策略提供了强大工具。文章详细探讨了HJB和HJI方程的求解过程,以及如何利用n步价值目标、结构化网络架构和自适应时间步长来提高收敛速度和性能表现。实验结果表明,这些方法在处理环境变化时表现出色,尤其是在需要鲁棒性和泛化能力的情况下。原创 2025-07-09 11:48:12 · 48 阅读 · 0 评论 -
16、连续拟合值迭代在鲁棒策略中的应用
本博文介绍了连续拟合值迭代(cFVI)及其鲁棒变体(rFVI)在解决连续状态和动作空间中的最优控制问题中的应用。cFVI通过将最优行动代入哈密顿-雅可比-贝尔曼(HJB)和哈密顿-雅可比-艾萨克斯(HJI)方程,简化了这些复杂微分方程的求解过程,无需额外的优化步骤。同时,博文探讨了如何通过n步价值函数目标、数据集选择(固定数据集 vs 回放记忆)、可接受集合约束、模型干扰优化等方法提升算法的收敛速度与策略鲁棒性。实验结果表明,cFVI和rFVI在非线性控制任务中表现优异,尤其在Sim2Real迁移中展现出比原创 2025-07-08 15:34:41 · 30 阅读 · 0 评论 -
15、连续时间拟合值迭代用于鲁棒策略
本文介绍了连续时间拟合值迭代(cFVI)和鲁棒拟合值迭代(rFVI)方法,用于解决机器人控制中的哈密顿-雅可比-贝尔曼(HJB)方程和哈密顿-雅可比-艾萨克斯(HJI)方程。通过这些方法,可以推导出在连续状态和动作空间中的最优策略和鲁棒策略。文章涵盖了从理论推导到实验验证的完整过程,展示了这些方法在欠驱动系统控制和Sim2Real迁移中的有效性。同时,还讨论了未来的研究方向,包括接触丰富任务的动态学习和广义坐标的探索。原创 2025-07-07 15:59:30 · 31 阅读 · 0 评论 -
14、连续拟合值迭代在鲁棒策略中的应用
本文探讨了连续拟合值迭代(FVI)在鲁棒策略中的应用,重点解决哈密顿-雅可比-贝尔曼(HJB)和哈密顿-雅可比-艾萨克斯(HJI)微分方程。通过解析解简化优化问题,并引入指数加权的n步价值目标以提高收敛速度。文章还分析了数据集选择、可接受集合设置对算法性能的影响,并介绍了鲁棒拟合值迭代(rFVI)的具体实现方式。实验结果表明,rFVI和cFVI在控制性能和Sim2Real转移方面均表现优异,尤其是在面对模型参数变化时展现出更高的鲁棒性。原创 2025-07-06 10:21:36 · 44 阅读 · 0 评论 -
13、结合物理学与深度学习:连续时间动力学模型的启示
本文探讨了结合物理学与深度学习的连续时间动力学模型在机器人学中的应用。通过将物理知识融入神经网络,物理学启发网络能够准确捕捉动态系统的内在结构,并保持能量守恒特性,从而实现更高效的预测和控制。文章分析了其与传统黑盒模型的对比优势、应用场景、局限性以及改进方向,同时展示了多个模拟和实际物理系统的实验结果,表明物理学启发网络在处理欠驱动系统和参数变化时具有显著优势。未来的研究方向包括扩展到接触丰富的任务、学习潜在空间表示、改进优化损失函数以及自动推断守恒定律等。原创 2025-07-05 10:01:20 · 37 阅读 · 0 评论 -
11、将物理学与深度学习结合用于连续时间动力学模型
本文探讨了如何将物理学与深度学习相结合,用于构建连续时间动力学模型。重点介绍了深度拉格朗日网络(DeLaN)和哈密顿神经网络(HNN)的结构及其优势,并讨论了它们在动态模型学习、基于模型的控制任务中的应用。文章还分析了当前方法的局限性,包括接触力处理、广义坐标观察及优化损失的选择,并提出了未来的研究方向,如引入对抗性学习以提高鲁棒性。实验结果表明,这些物理学启发的方法不仅能够保持物理合理性,还能有效应对复杂的现实世界任务。原创 2025-07-03 12:27:32 · 49 阅读 · 0 评论 -
10、结合物理学和深度学习的连续时间动力学模型
本博文探讨了结合物理学原理与深度学习技术的连续时间动力学模型,包括深度拉格朗日网络(DeLaN)和哈密顿神经网络(HNN),它们通过物理一致性、可解释性和多功能性提升了传统深度学习模型在机器人控制等领域的性能。文章还分析了这些模型的优势及面临的挑战,如接触问题和广义坐标观测限制,并提出了改进方向,例如结合变分自编码器(VAE)以处理任意观察输入以及优化损失函数以提升长期动态预测能力。实验结果表明,这些方法在模拟和物理系统中均表现出优越的控制性能和鲁棒性。原创 2025-07-02 13:51:34 · 56 阅读 · 0 评论 -
9、结合物理学和深度学习的连续时间动力学模型
本博文探讨了结合物理学原理与深度学习技术的连续时间动力学模型在机器人控制中的应用。重点介绍了深度拉格朗日网络(DeLaN)和哈密顿神经网络(HNN)如何利用能量守恒等物理先验知识提升动态模型的学习效率和长期预测能力。文章还分析了这些方法在模拟和真实物理系统中的表现,包括对欠驱动系统的控制、鲁棒策略的学习以及面对接触问题和高维扩展时的挑战。最后,讨论了未来的研究方向,如处理接触动态、推断对称性和守恒定律,以及改进探索机制以支持实时动态规划。原创 2025-07-01 09:17:35 · 38 阅读 · 0 评论 -
8、结合物理学和深度学习的连续时间动力学模型实验评估
本博客探讨了结合物理学与深度学习的连续时间动力学模型在模拟和物理系统中的实验评估。通过比较DeLaN、HNN等受物理学启发的网络模型与传统黑箱模型在双连杆摆、Barrett WAM、卡特波尔和Furuta摆锤系统上的表现,展示了这些模型在逆向和前向动力学预测、基于模型的控制任务中的优越性能。此外,文章还分析了Sim2Real迁移能力、鲁棒策略学习以及未来改进方向,如接触动态建模、潜在空间学习和探索机制优化。原创 2025-06-30 09:45:10 · 23 阅读 · 0 评论 -
7、可微分牛顿-欧拉算法在机器人技术中的应用
本文介绍了可微分牛顿-欧拉算法(DiffNEA)在机器人技术中的应用。DiffNEA是一种结合物理约束与可微分模拟的模型学习方法,能够在轨迹预测、强化学习和物理系统建模中表现出卓越的泛化能力和鲁棒性。相比传统的黑盒模型,DiffNEA确保了物理一致性,并在训练数据之外的行为预测上具有显著优势。实验表明,该算法在如Barrett WAM机械臂和Furuta摆锤等复杂任务中能够成功建模并实现控制,为机器人动态建模提供了新的解决方案。原创 2025-06-29 11:02:01 · 35 阅读 · 0 评论 -
6、可微分牛顿-欧拉算法在机器人动力学中的应用
本文介绍了可微分牛顿-欧拉算法(DiffNEA)在机器人动力学中的应用。通过结合可微分模拟、基于梯度的优化和虚拟参数,DiffNEA能够推断出物理上合理的系统参数,并在轨迹预测和强化学习任务中表现出色。实验表明,该方法在物理一致性和泛化能力方面优于传统黑盒模型。原创 2025-06-28 09:58:32 · 36 阅读 · 0 评论 -
5、结合归纳偏置的机器人控制与学习算法
本文探讨了结合归纳偏置的机器人控制与学习算法,重点介绍了可微分牛顿-欧拉算法(DiffNEA)、深度拉格朗日网络(DeLaN)和鲁棒拟合值迭代(rFVI)三种方法。这些方法通过引入物理模型和守恒约束等归纳偏置,在无接触系统、欠驱动系统的动态建模与控制中展现了卓越性能。同时,文章深入分析了当前模型学习中的开放问题,包括接触丰富任务的学习、广义坐标的处理、损失函数优化以及守恒定律的自动发现,并提出了潜在的解决方案。未来的研究方向聚焦于提升算法在复杂场景下的适用性和鲁棒性,为机器人学习开辟新的可能性。原创 2025-06-27 14:34:21 · 38 阅读 · 0 评论 -
4、连续时间拟合值迭代在鲁棒策略中的应用
本博客介绍了一种基于连续时间强化学习的新方法,通过连续拟合值迭代(cFVI)和鲁棒拟合值迭代(rFVI)解决哈密顿-雅可比-贝尔曼(HJB)和哈密顿-雅可比-艾萨克斯(HJI)方程。这些方法不仅适用于连续状态和动作空间,而且无需基于网格的采样,能够有效学习最优和鲁棒策略。博客还讨论了算法的实验结果、局限性以及未来发展方向,重点在于模拟到现实的策略迁移和鲁棒性提升。原创 2025-06-26 10:24:57 · 44 阅读 · 0 评论 -
3、结合物理学与深度学习的连续时间动力学模型
本文探讨了如何结合物理学原理与深度学习技术,构建连续时间动力学模型,以提升机器人系统对复杂动态环境的建模与控制能力。重点介绍了深度拉格朗日网络(DeLaN)和深度哈密顿神经网络(HNN)的理论基础及其在模拟与物理系统中的实验表现,并展示了其在逆向模型、前向模型以及能量控制任务上的优越性能。文章还分析了当前方法的局限性,并提出了未来研究方向,如接触处理、广义坐标学习及优化损失函数等。原创 2025-06-25 13:07:04 · 778 阅读 · 0 评论 -
2、可微分牛顿-欧拉算法在现实世界机器人中的应用
本文介绍了一种结合经典系统识别技术和现代机器学习工具的新方法——可微分牛顿-欧拉算法(DiffNEA),用于在现实世界机器人中学习物理一致的动力学模型。DiffNEA利用自动微分、虚拟参数化和梯度优化,确保模型的物理合理性和外推能力,在轨迹预测和强化学习任务中表现优异。实验表明,DiffNEA在多个物理系统上优于黑盒模型,尤其是在需要泛化能力和物理一致性的场景下。原创 2025-06-24 09:35:57 · 48 阅读 · 0 评论 -
1、结合先验知识与深度学习的机器人控制技术
本文探讨了如何结合先验物理知识与深度学习技术,以提升机器人控制系统的性能。文章提出了三种算法——可微分牛顿-欧拉算法(DiffNEA)、深度拉格朗日网络(DeLaN)和鲁棒拟合值迭代(rFVI),分别用于学习动态模型或最优策略。这些方法融合了经典物理建模的可解释性和深度学习的数据驱动能力,提高了模型的泛化能力和鲁棒性。实验验证了这些算法在多个物理系统上的有效性,并展示了其在能量守恒、长期预测和Sim2Real迁移方面的优势。未来的研究方向包括多接触建模、非结构化观察处理以及优化损失函数设计等。原创 2025-06-23 12:53:51 · 38 阅读 · 0 评论
分享