jiayoushijie-泽宣-CSDN博客

原创 Mahony filter滤波：IMU数据融合最好的算法-论文&代码详细解读（Nonlinear Complementary Filters on the Special Orthogonal）

Sensor Fusion这篇论文题为**2006年Mahony发表了《基于特殊正交群上非线性互补滤波器》的论文（Nonlinear Complementary Filters on the Special Orthogonal Group)**，作者是R. Mahony, Tarek Hamel, Jean-Michel Pflimlin。论文主要介绍了在特殊正交群SO(3)上进行姿态估计的非线性互补滤波器设计与分析，并提供了一种新的姿态融合算法。在无人机、各类需要IMU的角速度和加速度计融合得出角度

2024-05-18 22:40:54 5029

原创 Unleashing Robotics: Mastering Quaternion Kinematics with Python - Chapter3(原创系列教程)（最关键一章）

在许多实际应用中,我们需要分析四元数表示的旋转在空间和时间上的变化。这就涉及到了扰动(perturbation)、导数(derivative)、积分(integral)等概念。本章我们将探讨如何在四元数的框架下定义和计算这些量,并给出一些常用的公式和性质。

2024-05-17 20:50:13 1716

原创 Unleashing Robotics: Mastering Quaternion Kinematics with Python - Chapter 2(原创系列教程)

在第一章中,我们详细介绍了四元数的定义、性质以及运算法则。现在,我们将进一步探讨四元数在三维空间中的几何意义,特别是它与旋转的关系。本章将揭示四元数的一些重要性质,如四元数乘积与旋转复合、四元数指数与旋转矩阵的关系等。同时,我们还会介绍四元数与其他旋转表示之间的转换,如欧拉角、轴角等。本章的内容对于深入理解四元数在三维旋转中的作用至关重要。只有建立了坚实的理论基础,我们才能在实际应用中灵活运用四元数,并解决旋转表示和运动合成中的各种问题。

2024-05-17 12:24:28 1527

原创 Unleashing Robotics: Mastering Quaternion Kinematics with Python(原创系列教程)

在机器人领域,准确估计和控制机器人的姿态(orientation)是一项关键而富有挑战性的任务。四元数(Quaternion)凭借其独特的数学性质,已成为描述三维旋转的首选工具之一。特别地,它在基于IMU(惯性测量单元)的姿态估计和滤波算法中扮演着至关重要的角色。本章将为读者奠定坚实的四元数理论基础,内容涵盖了四元数的定义、多种表示形式、运算法则、性质定理等。只有深入理解了这些基础知识,读者才能真正领会四元数在机器人学中的巧妙应用,并具备在实际项目中灵活运用的能力。学完这个教程，你可以轻松理解任何涉及到

2024-05-17 12:10:01 1492

原创基于连续隐式 SDF 的任意形状机器人轨迹优化的论文解析

这篇论文《Continuous Implicit SDF BasedAny-shape Robot Trajectory Optimization》引起了我极大的兴趣，任意形状可以进行高精度规划（实际规避障碍物的效果非常好，但是轨迹合理性，比如可以走更宽敞的地方避免在窄区域闪转腾挪，包括最优性应该也还有优化空间，当然这不是本论文的重点），下面我对这篇论文的理论和不好理解的地方做下个人理解的阐述。

2024-05-15 14:09:59 2330 1

原创任意形状机器人 A* 搜路 —— C++代码实现

本文介绍了一种支持任意形状机器人（包括带孔凹多边形）的A路径搜索算法开源实现。传统A算法仅适用于点或简单形状机器人，而该方案通过扩展搜索空间到SE(2)（包含位置和方向）、采用多边形掩膜碰撞检测（支持外轮廓和内孔）、设计含转向惩罚的代价函数，实现了复杂形状机器人的可行路径规划。项目使用C++/OpenCV/Eigen开发，提供可视化工具和GIF动画输出，可作为高级规划算法的前端。开源地址为https://github.com/fanzexuan/AnyShapeAStar，支持扩展Dubins路径、ESDF

2025-10-20 15:48:33 684

原创任意形状机器人搜路：从姿态A* 到 OSQP/L-BFGS轨迹的连续避障算法

本文探讨了任意形状机器人的路径搜索算法，提出了一种分层优化框架。首先通过改进的A算法（姿态A）在离散空间中进行拓扑搜索，确保路径节点和边均满足连续碰撞检测；随后采用L-BFGS或OSQP优化算法将折线路径平滑化，同时考虑安全距离约束。文章详细介绍了两种优化方案的实现差异：L-BFGS使用欧式距离场（ESDF）构建软约束，而OSQP通过硬约束限制路径在安全走廊内。实验表明，该框架能有效解决复杂形状机器人在密集障碍环境中的连续无碰撞路径规划问题。

2025-10-14 23:06:38 1413 1

原创端到端的导航技术NeuPAN论文讲解

本文提出NeuPAN无图导航框架，通过将碰撞约束转化为局部距离场(LDF)，并设计轻量网络DUNE实现快速对偶求解。系统在MPC中嵌入LDF正则项形成NRMP控制器，实现30Hz实时运行。实验表明，相比传统方法，NeuPAN在成功率(96% vs 90%)和导航效率(10.8s vs 14.5s)上均有提升。该框架避免了显式建图，适用于仓库、配送中心等密集动态场景。关键创新包括：将对偶迭代展开为6层MLP、设计LDF正则项、端到端可训练参数等。

2025-06-02 22:16:10 2358 3

原创让相机自己决定拍哪儿！——NeRF 三维重建的主动探索之路

我们想要某个函数 (\Phi(x)) 来表示“距离表面有多远”。在传统 3D 里，这类似“有符号距离场 (SDF)”。Φx≈∫nearfard⋅σFrddd\Phi(x)\approx\, ddΦx≈∫nearfard⋅σFrd))dd然后对 (\Phi) 做梯度，就能获得g⃗x∇Φx∂Φ∂x∂Φ∂y∂Φ∂z\vec{g}(x)=\left(\right).g。

2025-02-06 23:29:44 1522

原创 VITA-1.5接近GPT4o水平的多模态模型：理解和跑通这套多模态实时交互系统

VITA-1.5 是一个多模态大型语言模型（Multimodal Large Language Model, MLLM），其特点在于可以同时处理视觉（图像、视频）、文本以及语音信息。在最初的版本 VITA-1.0 中，团队主要解决了“视觉+语音+文本”的多模态交互问题，但是语音输出依旧依赖外部的 TTS（Text-To-Speech）模块，导致推理过程中会有额外的延迟和一些可能的兼容性问题。大幅减少互动延迟。

2025-01-08 22:01:08 3251 1

原创解析AudioPaLM：复现高级语音对话技术指南

AudioPaLM基于仅解码器的Transformer架构（类似于GPT系列），通过将文本和音频标记整合到一个联合词汇表中，实现多模态建模。音频标记化：将原始音频信号转换为离散音频标记序列。词汇表扩展：将文本和音频的词汇表合并，形成一个统一的多模态词汇表。模型初始化：使用预训练的PaLM-2模型权重初始化Transformer解码器，并随机初始化新增的音频嵌入。多任务训练：在ASR、AST、TTS和S2ST等任务上进行混合训练，优化模型在多模态任务上的表现。音频解码。

2025-01-07 23:36:19 1432

原创【基于语义地图的机器人路径覆盖】Radiant Field-Informed Coverage Planning (RFICP)高斯扩散场轨迹规划算法详解

今天博主介绍自己paper中的算法RFICP 😃 ：针对语义地图覆盖轨迹的速度规划算法，该算法已开源，欢迎关注Github，代码地址如下：SHIFTPlanner-Robotics SHIFT-Planner：[https://github.com/fanzexuan/SHIFTPlanner-Robotics](https://github.com/fanzexuan/SHIFTPlanner-Robotics) 可以点个小星星🌟支持下，今天就讲解下这部分基于语义地图覆盖轨迹规划的内容。

2024-12-31 14:34:00 1577

原创超快速的路径优化IKD-SWOpt：SHIFT Planner 中增量 KD 树滑动窗口优化算法详解

今天本博主王婆卖瓜自卖自夸😄，介绍自己paper中的算法，本算法已经持续开源中(部分关键内容)，之前很多读者朋友一直说要详细讲讲路径优化算法，我这篇paper中的一个叫IKD-SWOpt的模块创新性的使用IKDtree改进的Astar给出比较好的初始路径，并通过滑动窗口检测需要优化的轨迹段进行无精度损失的轨迹优化算法，其内存开销及优化速度都打到了SOTA水平，在内存及计算资源极其有限的环境下也可以运行。

2024-12-28 22:44:17 2782 3

原创 Transformer进行路径预测的挑战与预训练模型的应用的惨痛教训及思考

该文章封面是德国朋友发给我的他家的景色，哈哈。周末我打算用Transformer模型在路径预测中进行路径预测，因为Transformer可以处理不同时间步的输入，例如位置、速度和环境特征等，但是效果十分不理想，记录下。

2024-10-27 21:30:16 1574

原创机器人路径搜索新思路论文：Diffusion-based Generation, Optimization, and Planning in 3D Scenes

本文介绍了SceneDiffuser这篇论文，这是一个用于3D场景理解的条件生成模型。SceneDiffuser提供了一个统一的模型来解决场景条件的生成、优化和规划。与先前的工作相比，SceneDiffuser本质上具有场景感知、基于物理和目标导向的特点。通过迭代采样策略，SceneDiffuser通过基于扩散的去噪过程以完全可微的方式共同公式化场景感知生成、基于物理的优化和目标导向的规划。这种设计缓解了不同模块之间的差异和先前场景条件生成模型的后验崩溃。

2024-10-27 00:02:19 1749

原创效果不错的论文介绍：Im2Flow2Act:-跨领域机器人操控技术

本文提出了一种可扩展的学习框架——，使机器人能够从多种数据源中学习操控技能。的核心思想是使用物体流作为操控接口，弥合不同体现形式（如人类与机器人）以及训练环境（如现实世界与模拟环境）之间的领域差距。流生成网络和流条件策略。流生成网络通过人类演示视频生成物体流，该流基于初始场景图像并结合任务描述进行生成。而流条件策略则利用模拟的机器人训练数据，将生成的物体流映射为机器人的动作，从而实现对目标物体的操控。通过使用物体流作为输入，这种策略可以以最小化的模拟到真实差距直接应用于现实环境。

2024-10-16 22:35:55 1385

原创 Moshi:类似chatgpt advanced voice mode的端到端语音问答技术

Moshi是法国一个人工智能实验室的开源模型，实现了首个开源的端到端语音问答模型，可以有类似chatgpt 4o的语音模式，下面是对这个技术的概述，但是实测远没达到chatgpt4o的能力，可能是有所限制，因为官网的展示视频能力很强。Moshi 是一种全新的语音-文本基础模型，旨在解决当前语音对话系统的局限。现有的对话系统依赖多个独立的组件（例如语音活动检测、语音识别、文本生成、文本到语音转换），这种多组件框架往往存在高延迟、非语言信息丢失和对话建模不足的问题。Moshi 通过设计全双工的语音对语音生成模型

2024-10-07 22:50:09 2144 1

原创今天不做技术分享系列：宋美龄女士的白宫演说

在中国近现代历史的舞台上，宋美龄，这位风姿绰约、谈吐优雅的女性，凭借她独特的魅力和卓越的外交才能，成为了一个令人瞩目的国际人物。作为蒋介石的妻子，她不仅是政坛的“第一夫人”，更是连接东西方政治与文化的桥梁。宋美龄出生于1897年，出身于上海显赫的宋家。她年幼时便随家人前往美国接受教育，毕业于马萨诸塞州的威尔斯利学院，这使她不仅具备流利的英语，还深谙西方文化。凭借她在中美两国之间的身份与背景，宋美龄迅速成为中华民国政府中一位独具影响力的女性人物。

2024-09-28 14:37:59 1068 1

原创深入浅出3D感知中的优化与基于学习的技术 (第三章) 原创教程

RAFT - 基于循环全对场变换的光流估计光流是估计视频帧之间每个像素运动的任务。这是一个长期存在的视觉问题,至今仍未完全解决。最好的系统仍然受到快速移动物体、遮挡、运动模糊和无纹理表面等困难的限制。传统上,光流被视为一个在一对图像之间的稠密位移场上的手工优化问题[21,51,13]。通常,优化目标定义了一个折衷,在鼓励视觉相似区域对齐的数据项和对运动合理性施加先验的正则化项之间取得平衡。

2024-07-02 22:26:52 1357

原创深入浅出3D感知中的优化与基于学习的技术 (第二章) 原创教程

总结了下基于学习的感知技术，会写一个新的系列教程讲解这部分三维感知技术的发展到最新的技术细节，并支持自己最近的项目开发和论文。，这一章先讲一些数学知识，这是看懂后面要讲解的论文和学术界前沿技术的关键。我们将导数视为向量空间之间的线性映射。更准确地说,给定在开集 U⊆XU\subseteq XU⊆X 和 V⊆YV\subseteq YV⊆Y 上定义的函数 F:U→VF:U\rightarrow VF:U→V 以及 a∈Ua\in Ua∈U,在 aaa 处的导数是一个线性映射 DF(a):X→YDF(a

2024-07-01 23:15:10 1483

原创深入浅出3D感知中的优化与基于学习的技术1（原创系列）

近期几乎看了所有有关NERF技术论文，本身我研究的领域不在深度学习技术方向，是传统的机器人控制和感知。所以总结了下这部分基于学习的感知技术，会写一个新的系列教程讲解这部分三维感知技术的发展到最新的技术细节，并支持自己最近的项目开发和论文。

2024-07-01 00:16:58 1361

原创基于NEON优化的扩展卡尔曼滤波（EKF）教程

本教程详细介绍了扩展卡尔曼滤波（EKF）的原理，并展示了如何使用ARM的NEON指令集优化EKF的实现。通过使用NEON进行矩阵乘法优化，我们可以显著提高EKF的运行效率。此外，还介绍了在实际应用中需要注意的性能优化和实现细节。希望通过本教程，您能深入了解EKF的工作原理，并掌握如何利用NEON指令集进行高效的矩阵运算优化。如果有任何问题或需要进一步的帮助，请随时联系。

2024-06-28 11:30:23 1401 3

原创 FC-Planner: 一个基于骨架引导的快速覆盖复杂3D场景的规划框架方案实现与难点讲解

FC-Planner的实现涉及到多个领域的技术,包括计算几何、组合优化、凸优化等。其中的难点主要集中在两个方面:一是如何在保证覆盖完整性的同时最小化视点数量和路径长度;二是如何高效地求解由此产生的各种优化问题。针对第一个难点,提出了骨架引导的空间分解和视点生成策略,可以避免大量的冗余计算。针对第二个难点,巧妙地利用了问题的结构特点,将其分解为多个易于并行求解的子问题,同时采用了各种启发式算法和凸优化技术,大大提高了求解效率。这些思想和技术不仅限于无人机覆盖规划,在其他路径规划问题中也有广泛的应用前景。

2024-06-23 16:16:54 2137 2

原创 OpenCL 教程：从基础到实践

OpenCL（Open Computing Language）是一个开放标准的并行编程框架，用于在异构系统上编写高性能计算程序。它允许开发者利用各种计算设备（如 CPU、GPU、FPGA 等）来加速计算密集型任务。通过本教程，我们已经深入探讨了 OpenCL 的核心概念、编程模型、内存模型和执行模型。我们还通过实际的例子展示了如何实现和优化 OpenCL 程序。记住，优化是一个迭代的过程。始终使用性能分析工具来测量你的优化效果，并根据具体的硬件和问题特性来调整你的策略。

2024-06-23 14:25:49 16578 2

原创基于自适应融合和偏置消除的鲁棒松耦合视觉惯性里程计

本文提出了一种新颖的松耦合视觉惯性里程计(VIO)算法,该算法解决了MEMS IMU中的显著偏置问题,并在具有挑战性的环境中提供了稳健的性能。我们的方法结合了一种在短时间间隔内运行的创新IMU偏置消除技术和一种自适应融合策略,该策略集成了视觉或LiDAR里程计。我们使用因子图优化框架制定了我们的方法,并通过闭环检测进一步增强了长期一致性。大量实验表明,我们的方法在各种具有挑战性的场景下都优于现有的最先进方法,特别是在快速运动或视觉退化的情况下,与现有方法相比,平均轨迹误差减少了25%。

2024-06-21 21:41:26 1295

原创哥伦比亚大学突破性的方法- Diffusion Policy：利用Action Diffusion进行视觉运动策略学习

本论文工作提出了一种名为Diffusion Policy的新型视觉运动策略学习方法，它利用了扩散模型强大的生成建模能力。通过引入时间衰减控制、视觉条件和时间序列扩散transformer等关键技术贡献，Diffusion Policy在各种复杂的机器人操作任务上实现了最佳性能，展示了其在机器人领域的广阔应用前景。

2024-06-21 00:01:23 3913 1

原创基于 Clang和LLVM 的 C++ 代码静态分析工具开发教程

C++ 中经常使用typedef和using来定义类型别名。# 检查类型是否是互斥锁在这里,如果类型是一个typedef,我们使用方法获取其原始类型,然后再进行检查。静态代码分析是一种强大的技术,可以帮助开发者在编译之前发现代码中的潜在问题。通过分析代码的结构和语义,静态分析工具可以发现诸如空指针解引用、资源泄漏、竞态条件等问题。本教程将介绍如何使用 LLVM 库开发一个 C++ 静态分析工具。LLVM 是一个强大的编译器基础设施,广泛用于开发编译器、优化器、静态分析器等工具。

2024-06-20 19:02:13 3271

原创常用损失函数详解：广泛使用的优化约束方法

今天介绍下损失函数，先介绍下我常用的方法SmoothedL1，它是一个平滑的L1 penalty函数,用于处理约束violation。L1x0xifx≤0ifx0其中x表示约束violation。然而,这个函数在x0处不可导,会给基于梯度的优化算法带来数值问题。为了解决这个问题,SmoothedL1使用了一个分段的、光滑的函数来近似L1 penalty。

2024-06-19 22:08:28 2642

原创史上最详细的轨迹优化教程-机器人避障及轨迹平滑实现（干货满满）

轨迹不与任何障碍物相交(避免碰撞)轨迹尽可能平滑,没有急转弯(保持平滑)轨迹尽可能短,减少不必要的绕路(最小化长度)min⁡xLxλsSxλcCxxminLxλsSxλcCxx\mathbf{x}x是轨迹的参数化表示,例如一系列的路径点坐标LxLx表示轨迹的长度SxSx表示轨迹的平滑度,可以用轨迹的曲率或加速度等量度CxCx表示轨迹与障碍物之间的碰撞代价λs\lambda_sλs和λc。

2024-06-16 17:16:42 11373 5

原创斯坦福ALOHA机器人团队最新论文-HumanPlus: 从人类学习的人形机器人动作模仿和自主操作

斯坦福ALOHA机器人团队最新论文-HumanPlus，继续推进了机器人技术的前沿进展，我进行了部分翻译和解读：HumanPlus:从人类中学习的人形机器人影子(Shadowing)和模仿(Imitation)摘要构建与人类具有相似形态的机器人的一个关键论点是,我们可以利用大量的人类数据进行训练。

2024-06-15 23:00:34 7884

原创 CMU最新论文：机器人智慧流畅的躲避障碍物论文详细讲解

CMU华人博士生Tairan He最新论文：Agile But Safe: Learning Collision-Free High-Speed Legged Locomotion代码开源：Code: https://github.com/LeCAR-Lab/ABS我会详细解读论文的内容,让我们开始吧。腿式机器人在杂乱环境中导航必须兼顾敏捷性以提高执行任务的效率,同时要确保安全性以避免与障碍物或人发生碰撞。

2024-06-14 00:03:48 5096 1

原创 Google&DeepMind联合发布医学领域大语言模型论文技术讲解

Med-PaLM 2的医疗领域大语言模型,在多个医学问答基准测试中取得了接近或超过现有最佳结果的表现,包括在MedQA数据集上达到86.5%的准确率,比之前的Med-PaLM提高了19%以上。提出了一种新的提示策略Ensemble Refinement(ER),通过让模型先生成多个推理路径,再对路径进行整合来提高推理能力。这个策略与之前的Chain-of-Thought和Self-Consistency方法有相似之处。针对消费者健康问题的长答案进行了详细的人工评估。

2024-06-12 23:00:49 2851 1

原创英伟达最新论文介绍：RoboCasa: Large-Scale Simulation of Everyday Tasks for Generalist Robots

这篇论文个人认为很重要，目前机器人领域的chatgpt时刻还没到来，很大原因就是没有统一的系统物理执行机构和数据集。今天来介绍下这篇论文。

2024-06-12 22:36:58 2456

原创从零实现ChatGPT:第四章在无标签数据上预训练

当语言模型生成文本时，它们一次输出一个token。默认情况下，下一个token是通过将模型输出转换为概率分数并从词汇表中选择对应于最高概率分数的token来生成的，这被称为贪婪解码。使用概率采样和温度缩放，我们可以影响生成文本的多样性和连贯性。训练集和验证集损失可用于衡量语言模型在训练期间生成的文本质量。预训练语言模型涉及改变其权重以最小化训练损失。语言模型的训练循环本身是深度学习中的标准程序，使用传统的交叉熵损失和AdamW优化器。

2024-06-11 22:40:53 1798

原创 PyTorch tutorials：快速学会使用PyTorch

PyTorch是由Facebook人工智能研究实验室(FAIR)开发的开源深度学习框架。它建立在Torch库之上,Torch是一个使用Lua编程语言的机器学习库。Torch主要用于研究和学术领域,而PyTorch则旨在为研究人员和实践者提供一个Python友好的接口。PyTorch是为灵活性和速度而设计的。它提供了一个名为Tensor的主要数据结构,用于存储和操作多维数组。Tensor类似于NumPy的ndarray,但可以利用GPU来加速计算。

2024-06-10 22:11:40 1527

原创史上最详细四叉树地图不同技术应用和代码详解

四叉树地图是一种强大的空间索引结构,在机器人导航、计算机图形学、地理信息系统等领域有着广泛的应用。本文介绍了四叉树地图的基本概念、主要变体及其研究进展,重点讨论了X-Quad树在机器人领域的应用。通过示例代码,我们展示了如何使用X-Quad树表示环境地图、进行路径规划、碰撞检测和占据栅格地图构建。X-Quad树的自适应性、紧凑存储和快速查询等特点,使其成为机器人导航中的理想选择。

2024-06-10 19:59:00 3196

原创从零实现ChatGPT:第三章实现大型语言模型（2）

层归一化通过确保每一层的输出具有一致的均值和方差来稳定训练。快捷连接是跳过一个或多个层的连接，通过将一个层的输出直接馈送到更深层来帮助缓解深度神经网络(如LLMs)训练中的梯度消失问题。Transformer块是GPT-2模型的核心结构组件，结合了带掩码的多头注意力模块和使用GELU激活函数的全连接前馈网络。GPT-2模型是具有许多重复transformer块的LLMs，参数数量从数亿到数十亿不等。

2024-06-10 15:38:38 1654 3

原创从零实现ChatGPT:第三章实现大型语言模型（1）

本章中实现最终GPT架构所需的各个概念的顺序。

2024-06-10 15:24:01 1550

原创基于栅格占据概率和距离场的机器人覆盖轨迹模拟

辐射场模型实现。

2024-06-09 21:12:15 1323 1

原创从零实现ChatGPT:第二章使用注意力Dropout减少过拟合

在本小节中,我们重点关注了神经网络中的因果注意力机制的概念和实现。我们将在此基础上实现多头注意力模块。

2024-06-09 13:03:35 2358

空空如也

空空如也