- 博客(113)
- 资源 (2)
- 收藏
- 关注
原创 两万字梳理 | 四足机器人的结构、控制及运动控制
本文系统回顾了四足机器人在结构设计、步态规划、传统控制方法、智能控制策略以及自主导航等核心技术领域的最新成就,特别关注各领域内的智能化发展趋势和技术革新动向。通过深入分析,本文不仅为四足机器人的未来发展提供了坚实的理论依据和前沿的技术导向,还为相关领域的研究人员提供了重要的参考价值。
2025-01-06 21:16:20
7650
2
原创 LPVIMO-SAM:基于多传感器紧耦合的高精度鲁棒SLAM系统
本文提出了一种创新的多传感器紧耦合SLAM系统LPVIMO-SAM,通过融合激光雷达、偏振视觉、IMU、磁力计和光流数据,有效解决了传统SLAM在低纹理、LiDAR退化等复杂环境中的定位难题。系统采用偏振视觉增强特征提取,设计多因子图优化框架实现传感器深度协同,并具备故障容错机制。实验表明,在1.28公里测试中,系统较基准方法精度提升最高达84.2%,特别是在256米挑战场景中实现0.87米RMSE精度。该研究为多模态SLAM系统设计提供了新范式,在无人机、自动驾驶等领域具有重要应用价值。
2025-08-02 20:14:09
1219
原创 浙大团队新算法让机器狗灵活操控机械臂,还能挥彩带拍Vlog
论文针对四足机器人集成机械臂后形成的复杂系统控制难题,提出了一种创新性的解决方案,通过将显式运动学模型融入强化学习框架,有效解决了传统方法面临的局部最优问题。
2025-08-01 19:08:34
1006
原创 野外具身视觉跟踪:北大团队TrackVLA让AI视觉跟踪进化到2.0时代
北大团队提出TrackVLA模型,创新性地将视觉-语言-动作能力整合到统一框架中,推动具身视觉跟踪进入2.0时代。该模型采用共享LLM骨干网络,结合语言建模头和锚点扩散轨迹规划,解决了传统方法中识别与规划模块分离导致的误差累积问题。研究构建了包含170万样本的EVT-Bench基准,实验显示TrackVLA在公开基准上零样本性能显著提升,并在真实场景中实现10FPS的实时跟踪。该工作为具身智能领域提供了感知-行动协同的新范式,在服务机器人等领域具有广泛应用前景。
2025-07-22 18:22:29
1589
原创 无需调试直接上岗!北大团队造出“零学习“机器人手,看一遍就会抓新物品
北大团队提出"DexGraspVLA"框架,实现机器人"零学习"灵巧抓取。该创新方法通过分层架构设计,融合视觉语言模型与扩散策略,将多样化输入转化为领域不变表示,解决了传统抓取方法泛化能力不足的问题。实验显示,系统在未见物体、背景和光照条件下平均成功率超90%,接近人类水平。该研究突破了仿真与现实鸿沟,为通用机器人操作提供了新范式,未来有望拓展至功能性抓取等复杂任务。
2025-07-15 09:40:34
994
原创 CVPR 2025 | Magma:多模态AI智能体的基础模型
当前大多数VLA模型虽然冠以"通用"之名,但实际上仍是为特定任务或环境(如2D数字界面或3D物理世界)单独训练的,这种割裂的训练方式严重限制了模型的泛化能力。更为关键的是,作者指出现有模型在追求任务特定动作策略时,往往以牺牲通用多模态理解能力为代价,形成了所谓的"能力权衡"困境。Magma的创新之处在于,它通过统一的基础模型架构,同时保持了强大的多模态理解能力和跨领域的动作执行能力,这种双重能力的协同效应是本文最重要的理论贡献之一。
2025-06-13 11:19:15
899
原创 未来机器人的大脑:如何用神经网络模拟器实现更智能的决策?
论文提出了名为RWM(Robotic World Model)的新型世界模型框架,通过双自回归机制和自我监督训练,解决了机器人控制中长期预测、误差累积和部分可观测性等核心挑战。
2025-06-10 21:14:47
1533
原创 基于物理约束的稀疏IMU运动捕捉系统
摘要:本文提出了一种基于物理约束的稀疏IMU运动捕捉系统,仅需6个IMU即可实现高精度3D人体运动重建。创新点包括:1)重力感知的姿态估计方法,通过联合优化局部姿态与重力方向提升全局运动精度;2)3D接触估计与物理优化框架,突破传统2D平面假设,支持复杂运动捕捉;3)实时性能(120fps)与长时稳定性(20分钟漂移<5%)。实验表明,该系统在姿态估计误差(10.87°)和平移漂移(3.74-4.68%)上优于现有方法,并输出接触力、关节扭矩等物理信息,为VR、机器人和医疗康复等应用提供了新维度。未来可扩
2025-05-28 16:53:11
1039
原创 统一人体姿态估计与分割的新方法:KDC
文章首先概述了研究的核心贡献与问题背景,随后将详细解析论文的各个组成部分,包括引言部分对研究挑战的剖析、相关工作综述的系统性分类、技术方法的创新性设计(特别是KeyCentroid和MaskCentroid机制)、实验评估的全面性以及消融研究的深入分析。
2025-05-26 19:55:11
1009
原创 仿生机械轮腿式车辆在丘陵和山区姿态控制的方法
本研究提出了一种仿生机械轮腿式车辆,旨在解决传统农业机械在山地和丘陵地区作业效率低、稳定性差的问题。该车辆模仿蝗虫后腿的运动原理,结合气液连续杆机制,设计出新型轮腿组合结构,并通过D-H参数法进行运动学分析,验证了其末端在X、Y、Z方向的可移动范围。基于NSGA-II算法构建的全方位调平姿态控制系统,通过ADAMS-Matlab联合仿真模型验证了其有效性,结果显示在复杂地形中,轮腿式车辆的调平误差优于传统PID控制算法。
2025-05-16 18:12:23
901
原创 基于混合模型的三步优化框架在人形机器人跳跃运动中的应用
本文提出了一种基于三步优化框架的解决方案,通过分层建模与优化,在保证计算效率的同时实现了跳跃轨迹的精确生成。三步轨迹优化框架包括三个子优化过程,每个步骤对应一个特定的动态模型,以提升优化速度并维持准确性和实用性。
2025-04-06 18:43:41
1157
原创 MoManipVLA——面向通用移动操作的视觉-语言-动作模型迁移
MoManipVLA的核心创新在于利用预训练VLA模型生成高泛化能力的末端执行器路径点,并通过双层次轨迹优化框架(Bi-Level Optimization)联合规划基座与机械臂的运动轨迹,确保物理可行性(如可达性、平滑性、碰撞避免)。
2025-04-02 10:37:17
1166
原创 基于Real-Sim-Real循环框架的机器人策略迁移方法
本文提出的Real-Sim-Real(RSR)循环框架通过引入可微分仿真技术,构建了一个闭环的系统性解决方案。其核心创新点在于将仿真参数优化与策略训练过程解耦,形成两个相互促进的反馈环路(图1)。
2025-03-26 12:23:03
1655
原创 仿真世界的作弊代码:MuJoCo软接触模型+ iLQR=现实机器人完美步态
本文提出了一种折中方案:利用MuJoCo物理引擎的高效仿真能力,结合迭代线性二次调节器(iLQR)算法,构建一种简单但高效的全身模型预测控制框架。该方法的核心优势在于标准化工具链(MuJoCo + iLQR)的采用,显著降低了模型预测控制的实现门槛。
2025-03-24 22:07:22
1481
原创 让机器人学会“读心术“:FABG如何实现情感零延迟交互?
论文标题《FABG:End-to-end Imitation Learning for Embodied Affective Human-Robot Interaction》明确了研究的核心目标——通过端到端模仿学习实现具有情感表达的具身人机交互。标题中的“Facial Affective Behavior Generation”(FABG)表明系统专注于生成自然的面部情感行为,这一设计直接针对传统人机交互中情感表达的机械化和不连贯问题。
2025-03-23 13:15:02
1705
原创 基于HWC-Loco框架的鲁棒人形机器人运动控制方法
该论文提出了一种分层全身控制框架HWC-Loco,旨在解决人形机器人在复杂环境中的鲁棒运动控制问题。摘要部分明确指出,现有基于强化学习的方法虽在仿真环境中表现优异,但面临仿真与现实(Sim2Real)的动力学差异,且传统鲁棒优化方法常导致策略过于保守。HWC-Loco通过分层策略设计,动态协调目标追踪与安全恢复的平衡,并通过人类行为模仿提升运动自然性。作者指出,经典模型驱动方法依赖精确动力学建模,而数据驱动方法(如强化学习)虽具有泛化潜力,但受限于仿真环境与实际部署的动力学差异。
2025-03-21 09:11:34
1411
原创 HOVER:人形机器人的多功能神经网络全身控制器
论文《HOVER: Versatile Neural Whole-Body Controller for Humanoid Robots》提出了一种新型的多模态神经网络控制器HOVER,旨在解决人形机器人全身控制中不同任务模式(如导航、操作、桌面操控等)的兼容性问题。现有方法通常为每个控制模式单独训练策略,导致控制器缺乏通用性。HOVER通过引入运动模仿和策略蒸馏技术,将多个控制模式整合到一个统一策略中,实现了跨模式的技能共享与无缝切换。
2025-03-18 11:42:42
1195
原创 基于视觉的仿人机器人灵巧操作:从模拟到现实的强化学习
本文通过系统化解决环境建模、奖励设计、策略学习与感知迁移四大挑战,构建了一个可扩展的Sim-to-Real框架,首次实现了仿人机器人多指手视觉灵巧操作的策略迁移。
2025-03-17 20:45:51
1621
原创 ChatVLA:基于视觉-语言-动作模型的统一多模态理解与机器人控制
ChatVLA框架,其核心创新在于分阶段对齐训练和混合专家架构(MoE)。前者通过先掌握控制任务再逐步引入多模态数据的策略保留对齐能力,后者通过共享注意力层与独立MLP层的设计减少任务干扰。
2025-03-04 16:05:02
1238
1
原创 AnyDexGrasp: 通用灵巧抓取方法的创新与应用
通过个性化的训练和优化,AnyDexGrasp 能够根据不同机械手的特点调整其策略,从而在多变的任务环境中保持高效的抓取能力。接着,针对每一种机械手,通过现实世界的试错训练出独特的抓取决策模型,将这些表示转化为最终的抓取姿势。每一个抓取决策子模型都是通过神经网络学习得到的,它接收一个接触中心抓取表示作为输入,并输出一个介于0到1之间的分数,指示相应的抓取候选是否可能成功。例如,在实验中,研究人员发现即便是在仅有几百次抓取尝试的情况下,模型也能显著改善抓取效果,显示出其卓越的学习效率和适应性。
2025-03-03 22:27:50
1705
原创 Harmon:从语言描述中生成人形机器人的全身动作
这篇论文介绍了一种名为“HARMON”的方法,用于从自然语言描述中生成人形机器人的全身运动。该方法利用了人类运动数据集中的先验知识来初始化机器人动作,并利用视觉语言模型(Vision Language Models,VLM)的能力编辑和优化这些动作。通过模拟和真实世界实验验证,该方法能够产生自然、富有表现力且符合文本描述的人形机器人动作。
2025-02-27 09:58:58
1327
原创 Dream to Drive:基于解析世界模型的自动驾驶车辆控制
本文提出了一种基于可微分仿真器的自动驾驶车辆控制方法,首次将可微分仿真应用于世界模型(World Model)的训练。通过引入解析世界模型(Analytic World Models, AWMs),作者设计了三种新任务——相对里程计预测、最优状态规划和逆最优状态估计,旨在解决传统基于策略的模型(如APG)在规划能力与可解释性上的不足。
2025-02-23 17:48:10
1230
原创 VR-Robo:视觉机器人导航和运动的Real-Sim-Real框架
该论文的主要创新点在于提出了VR-Robo系统,实现了机器人在仿真环境与真实世界之间的快速转换。本文介绍了一种名为VR-Robo的框架,该框架能够为视觉导航和机器人运动学习提供真实感强、物理交互性强的数字孪生仿真环境。该方法利用多视图图像进行基于3DGS的场景重建,并将这些环境整合到支持自我中心视觉感知和网格基物理交互的模拟器中。
2025-02-17 10:46:09
1607
原创 MapFusion:一种新的多模态BEV特征融合方法
MapFusion:一种新的多模态BEV特征融合方法该论文的主要贡献在于提出了一个新的多模态BEV特征融合方法MapFusion,该方法通过引入CIT和DDF两个核心模块来实现跨模态交互和模态集成。本文介绍了一种名为MapFusion的新方法,用于多模态地图构建任务中的特征融合。该方法采用鸟瞰视角(Bird's-Eye View,BEV)特征作为输入,并通过引入交叉模态交互和双动态融合模块来解决不同传感器之间的语义不匹配问题。
2025-02-15 13:21:03
1210
原创 DrivingGPT:使用多模态自回归Transformers统一驾驶世界建模和规划
这篇论文介绍了一种新的方法,名为DrivingGPT,旨在将驾驶世界建模(driving world models)和规划统一为一个序列建模问题。传统的驾驶世界模型主要依赖于视频扩散模型,缺乏灵活性以整合其他模态数据,如动作。相比之下,自回归变换器已经在处理多模态数据方面表现出色。
2025-01-11 10:27:19
1028
原创 NaVILA:用于足式机器人导航的VLA模型
本文提出的NaVILA模型是一种结合了视觉语言理解和低级运动控制的系统,用于实现在现实世界中的导航任务。该模型采用了高效的预训练视觉语言模型(VLM)来处理视频输入,并将其与低级运动控制器相结合,以实现精确的关节运动控制。这种模型设计的优势在于其能够适应不同的环境并具有较强的泛化能力。
2025-01-08 18:01:22
1310
原创 《机器学习特征提取》
这是一本面向专业人士和研究生的实用指南,适用于那些正开始从事信息提取职业生涯的人。它以易于理解的方式解释了空间特征提取,并包括了关于如何收集空间特征的高度值、如何在地图上下文中开发3D模型等真实案例研究。
2024-06-04 15:05:45
1381
原创 NV-LIO:一种基于法向量的激光雷达-惯性系统(LIO)
NV-LIO利用从激光雷达扫描中提取的法向量进行云配准、退化检测和闭环检测,以确保在狭窄的室内环境中具有鲁棒的SLAM性能。所提出的方法通过公开数据集和我们的数据集进行了评估,涵盖了各种类型的建筑。
2024-05-28 12:51:37
1274
原创 【荐闻】空中目标检测综述
总结了空中目标检测的发展现状和面临的挑战,提出了未来的研究方向,包括针对空中图像特性的特定数据增强方法、更高效的尺度特征融合、从多模态数据中学习、鸟瞰视角感知、视觉推理和可信赖的检测模型等。
2024-05-27 18:59:54
1166
原创 利用显著地面特征进行配送机器人定位的鲁棒方法
为了在不平坦的地面条件下获得更一致的SGF,我们采用了利用机器人运动的MC-IPM方法。SGF因子被应用于一个传递机器人,在校园环境中表现良好,并解决了反向循环的问题。它还验证了在白天和黑夜中光照和外观变化的情况下的强大性能。
2024-05-27 15:04:40
1420
原创 用于高速导航的生成式规划与快速碰撞检查
本文提出了一种新颖的规划方法,使用归一化流(NF)来编码专家风格的运动基元,同时提出了一种加速的碰撞检测框架,可以在运行模型之前从先验分布中拒绝样本,从而快速采样无碰撞轨迹。实验结果表明,该方法在随机障碍环境中与模型预测路径积分控制相当,并在死胡同环境中提高了退出率。
2024-05-24 10:41:54
1057
原创 【荐闻】动态NeRF(Dynamic NeRF)综述
传统三维重建技术逐渐倾向于应用研究,而NeRF作为新颖的隐式三维重建领域,以其高分辨率的合成能力和对少量图像的适应性脱颖而出。动态NeRF相比静态NeRF能表达更丰富的信息,有更广泛的应用前景,因此,未来NeRF研究将更多关注动态NeRF,其在NeRF领域的重要性将日益增加。
2024-05-24 10:20:51
1480
原创 基于事件相机的IMU辅助立体视觉里程计方法
该方法在现有的ESVO框架基础上,增加了三个模块:1)一种高效的事件像素采样策略;· 在相机位姿跟踪子问题中,利用IMU预积分结果作为运动先验,以提高位姿估计的准确性。· 在公开数据集上进行实验验证,结果表明该方法相比原始ESVO框架,在映射和位姿跟踪的准确性上有明显提升,同时计算效率也更高,更适合现代高分辨率事件相机。· 提出了一种自适应累积极(AA)方法,用于高效地确定与瞬时边缘相关联的像素位置。· 通过结合时间序列立体匹配和静态立体匹配的结果,改进了映射子问题。
2024-05-24 09:24:12
599
原创 AHPPEBot:基于表型和姿态估计的自主番茄采摘机器人
在本文中,我们设计了一个名为AHPPEBot的先进机器人,专门用于自动采摘番茄。为了确保机器人采摘的自主性和精确性,我们整合了两个关键技术:基于对象检测的快速表型学方法和用于番茄托架的姿态估计技术。这些整合提高了机器人识别番茄托架、决策和规划采摘路径的能力。
2024-05-22 13:09:01
2678
转载 基于YOLOv8的无人机图像目标检测算法
在无人机(UAV)目标检测任务中,存在因检测目标尺度小、检测图像背景复杂等原因导致的漏检、误检问题。针对上述问题,提出改进YOLOv8s的无人机图像目标检测算法。首先,针对无人机拍摄目标普遍为小目标的应用场景,减少算法骨干网络(Backbone)层数,增大待检测特征图尺寸,使得网络模型更专注于微小目标;其次,针对数据集普遍存在一定数量低质量示例影响训练效果的问题,引入Wise-IoU损失函数,增强数据集训练效果;
2024-05-21 15:21:38
4977
4
原创 基于深度强化学习的无人车自适应速度规划
本文对无人车辆的速度规划部分进行了一些改进。首先,将车辆速度与车辆与障碍物之间的角度耦合,并将这种耦合关系整合到奖励函数中。其次,使用DDQN算法替换无人车的局部路径规划模块;最后,在Gazebo仿真环境中完成了不同环境下的车辆速度规划测试。
2024-05-21 15:02:53
1644
原创 【荐闻】MAD-ICP:一种基于激光雷达里程计(LO)的新型方法
本文提出了MAD-ICP,这是一种基于激光雷达里程计(LO)的新型方法。MAD-ICP利用了一种高效且通用的kd-tree数据结构,并结合估计的姿态不确定性动态维护一个稳健的环境模型。
2024-05-19 18:14:58
945
原创 GPS-IMU传感器融合用于可靠的自动驾驶车辆位置估计
在自动驾驶车辆导航、特别是在具有挑战性的环境中,将全球定位系统(GPS)和惯性测量单元(IMU)集成已成为实现可靠和精确位置跟踪的基石。虽然GPS提供了室外广泛的覆盖范围和高精度定位,但在室内或城市峡谷等信号受阻的地方,其性能会下降。相反,IMU独立于外部信号提供宝贵的运动数据,在无GPS信号的区域中不可或缺。然而,IMU的实用性受到随时间漂移的影响,这会导致从加速度数据推导出的速度和位置估计累积误差。为了减轻每种传感器类型的限制,GPS和IMU数据的融合成为一种关键策略。
2024-05-17 12:54:57
1122
原创 综述:基于深度学习的物体姿态估计
本章首先介绍了主流的基于深度学习的对象姿态估计数据集,包括实例级、类别级和未见对象姿态估计方法。然后,综述了相关的评估指标。最后,详细介绍了基于对应、模板、投票和回归的方法。
2024-05-16 13:37:20
1605
原创 《Python深度学习,第3版》
深度学习领域在过去几年中发展迅速,如今涵盖了广泛的应用领域。这使得在没有扎实基础的情况下,要理解并应用深度学习变得具有挑战性。本书将引导您从神经网络的基础知识到当今使用的最先进的大型语言模型。
2024-05-14 15:58:03
1695
1
基于 GPU 的大规模音频理解和合成解决方案.pdf
2020-04-16
17篇三维点云处理综述合集
2022-08-18
刘知远-Introduction to Graph Neural Networks.pdf
2020-04-01
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅