自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(94)
  • 问答 (1)
  • 收藏
  • 关注

原创 DIA——边缘拟合

灰度阶跃拟合(Grayscale Step Fitting)是一种常见的图像处理与分析方法,主要用于在含有突变边缘(step edge)的灰度图像或灰度轮廓上一种最简单的边缘模型——两个不同灰度值之间的“阶跃”模型——与实际测得灰度数据做最小二乘拟合,进而估计出边缘位置、上下两侧的灰度水平以及噪声影响等关键信息。

2025-06-05 11:55:00 935

原创 ROS架构

摘要: ROS(Robot Operating System)是一个模块化的机器人软件开发框架,采用分布式、松耦合设计。其核心组件包括节点(Node)、话题(Topic,异步发布-订阅)、服务(Service,同步请求-响应)、消息(Message)和参数服务器(Parameter Server)。架构分为文件系统层(功能包管理)、计算图层(动态通信网络)和开源社区层(共享工具)。ROS提供丰富的命令行(如roslaunch)和可视化工具(如Rviz、Gazebo),支持机器人系统的快速开发与调试。ROS2

2025-05-26 16:48:44 827

原创 文献阅读——NeuroBayesSLAM

文章介绍了一种基于贝叶斯多感官整合框架的模型,用于估计头部方向或位置。该模型结合视觉和前庭线索,通过贝叶斯公式计算后验概率分布,并利用路径积分和地标校准进行时间迭代更新。模型架构包括头部方向细胞和网格细胞,分别编码方向和位置信息。整合细胞和校准细胞通过相互抑制和全局抑制解决线索冲突,确保网络中单峰活动的稳定性。文章还详细描述了HD细胞网络和网格细胞网络的表示、吸引子动力学、路径积分更新和视觉校准更新机制。最后,文章展示了NeuroBayesSLAM系统的软件架构,该系统通过传感器、视觉里程计、局部视图单元、

2025-05-23 19:52:25 1218

原创 transformer网络

Transformer网络是一种革命性的深度学习架构,由Vaswani等人在2017年的论文《Attention is All You Need》中提出。它彻底改变了自然语言处理(NLP)领域,并成为BERT、GPT等现代模型的核心。Transformer通过其创新的架构设计,成为现代深度学习的基石。理解其核心机制是掌握NLP前沿技术的关键。单一注意力头可能无法捕捉到所有重要的信息子空间。

2025-05-22 21:41:15 796

原创 循环神经网络

循环神经网络(RNN)是一种专为处理序列数据设计的神经网络,通过引入隐藏状态捕捉时序依赖关系,广泛应用于自然语言处理、语音识别和时间序列预测等领域。RNN的核心思想是利用循环连接传递历史信息,但其存在梯度消失/爆炸和短期记忆问题。为解决这些问题,LSTM和GRU引入了门控机制,增强了长序列处理能力。RNN的变体包括双向RNN和深度RNN,适用于文本生成、机器翻译等任务。尽管Transformer在长序列任务中表现更优,RNN及其变体在短序列和实时数据处理中仍具有重要价值。

2025-05-20 11:22:51 1233

原创 卷积神经网络

卷积神经网络(Convolutional Neural Network, CNN)是一种专为处理(如图像、音频、视频)设计的深度学习模型,尤其在计算机视觉领域表现卓越。传统全连接网络将每个像素视为独立输入,而CNN通过在局部区域(如3×3或5×5)滑动,捕捉局部特征(如边缘、纹理)。同一滤波器在整个输入上滑动,共享参数,大幅减少参数量,同时保证对平移、旋转等变化的鲁棒性。底层卷积层提取简单特征(边缘、颜色),深层网络组合这些特征得到复杂模式(物体部件、整体对象)。

2025-05-20 10:54:51 1086

原创 类脑SLAM的综述——自用仅供参考

脑启发SLAM(同时定位与建图)技术通过模拟大脑的空间导航过程,利用摄像头作为传感器,实现了在未知环境中的定位与地图构建。该技术借鉴了动物导航机制中的网格细胞、位置细胞和头方向细胞等神经生物学理论,通过路径积分、位置编码和方向感知等方式,支持机器人在复杂环境中的导航。脑启发SLAM的实现包括环境感知和空间认知两个主要过程,通过多模态感知信息处理和自组织集群放电机制,结合深度学习、连续吸引子神经网络和脉冲神经网络等模型,构建认知地图并实现自我定位。该技术具有成本低廉、适应性强和低功耗等优势,适用于危险或难以进

2025-05-19 13:39:55 880

原创 深度学习基础——神经网络优化算法

结合Momentum和RMSProp,利用梯度的一阶矩(均值)和二阶矩(方差)进行自适应调整。梯度下降法:函数沿梯度方向有最大的变化率,优化目标损失函数时,根据负梯度方向进行。:模拟物理中的动量,在参数更新时引入历史梯度方向的加权平均,加速收敛并减少震荡。:改进AdaGrad的累积方式,引入指数衰减平均,避免学习率过早下降。:为每个参数自适应调整学习率,历史梯度平方的累积值越大,学习率越小。为学习率,即每次更新的步长。

2025-05-19 11:40:20 892

原创 深度学习基础——深度前馈网络

深度前馈网络(DFN)是深度学习的基础模型,通过多层非线性变换对输入数据进行高层次抽象,广泛应用于分类、回归等任务。其核心结构包括输入层、隐藏层和输出层,信息单向流动,无循环或反馈连接。激活函数引入非线性,解决线性不可分问题。前向传播通过逐层计算得到预测结果,反向传播则通过链式求导更新权重和偏置。以3层神经网络为例,结合交叉熵损失函数和Softmax激活函数,详细演示了前向传播和反向传播的计算过程,展示了如何通过梯度下降法优化网络参数。

2025-05-13 15:48:10 1013

原创 组合数学——容斥原理

本文介绍了容斥原理及其在组合数学中的应用。首先,定理4.1.1和推论4.1.1分别给出了计算集合中不具有或至少具有某些性质的元素个数的公式。定理4.1.2进一步扩展了容斥原理,用于计算集合中恰好具有特定数量性质的元素个数。接着,文章通过多重集合的组合数问题、错排问题以及有禁止条件的排列等具体例子,展示了容斥原理的实际应用。例如,在多重集合的组合数问题中,通过逐步排除违反约束的解数,最终得到符合条件的组合数。错排问题则通过容斥原理推导出错排数的公式。最后,文章还讨论了在排列中恰好有特定数量元素位于自然位置的问

2025-05-12 18:16:08 576

原创 DIA——二值形态学

1. 结构元素(Structuring Element)定义:一个预定义的小矩阵(如3×3、5×5),用于探测或修改图像的局部结构。形状:可以是矩形、十字形、圆形等,不同形状会影响处理效果。作用:决定形态学操作中“如何比较”图像的局部区域。2. 补集(Complement)符号AcA^cAc。定义全集UUU中不属于集合AAA的所有元素组成的集合。Acx∈U∣x∉AAcx∈U∣x∈A形态学应用。

2025-05-06 11:23:27 959

原创 非暴力沟通阅读笔记

非暴力沟通(Nonviolent Communication, NVC)由心理学家。,它需要持续练习,但长期践行能显著改善人际关系,营造更具同理心的互动模式。

2025-04-29 10:10:54 515

原创 组合数学——二项式系数

为一正整数,则对任意的。

2025-04-13 21:16:44 936

原创 DIA——边缘检测

通过找到一阶导数的极值点或者二阶导数的过零点来确定边缘像素的位置。边缘检测通常使用算子,即特定的卷积核。通过差分对离散的像素点求导,然后转化成卷积核进行卷积。使用卷积统一涵盖求导,高斯平滑等操作。Canny算法是一种多步骤优化的边缘检测方法,综合了抗噪能力与边缘定位精度,是实际应用中的黄金标准。边缘是像素的突变位置。

2025-04-10 15:40:05 1239

原创 DIA——图像处理

(Histogram Equalization)是一种通过调整图像灰度分布,使得直方图在全局范围内尽可能均匀分布的图像增强技术。其核心目标是。

2025-04-10 11:13:23 999

原创 DIA——图像变换

可分离性提升计算效率,正交性确保能量集中与去相关。两者结合使得DCT、DFT等成为图像处理的标准工具,广泛应用于压缩与分析任务。

2025-04-07 21:12:03 475

原创 组合数学——排列与组合

事件A有m种可能,把A分成K类不相交的等量子集,则每类中有m/k种可能。事件A有m种可能,事件B有n种可能,则事件A和B一共有m+m种可能。事件A有m种可能,事件B有n种可能,则A发生后B发生的可能有mn种。将两种情况的数目相加,总共有。个符合条件的四位数。

2025-04-01 18:28:44 861

原创 数字图像分析——图像数字化

是描述像素空间关系的核心概念,直接影响图像分割、目标识别和区域分析等任务。,是连接和连通的基础。,指一组像素通过连接关系形成的整体。在数字图像处理中,像素间的。

2025-03-27 16:42:48 1053

原创 C++进阶——auto

它的核心作用是根据初始化表达式的类型,由编译器自动推断变量的类型。以下结合代码逐步解释。的推导严格依赖初始化表达式的类型,确保类型正确性。变量必须初始化,且初始化表达式不能为。是 C++11 引入的关键字,用于。当初始化表达式已明确类型时(如。需警惕隐式类型转换(如推导出。若初始化表达式包含引用或。

2025-03-26 16:21:00 793

原创 C++进阶——智能指针

默认选择unique_ptr:明确所有权,高效安全。共享资源用shared_ptr:配合weak_ptr用于观察共享资源。避免手动newdelete:减少内存管理错误。

2025-03-26 16:17:43 933

原创 C++进阶——指针

操作符:取地址操作符(Address-of Operator)操作符:声明指针类型或解引用操作符(Dereference Operator)内存可视化第二部分:指针操作深度解析基本操作指针算术关键规则:指针加减以指向类型的大小为单位指针与数组的关系第三部分:多级指针与高级类型二级指针(Pointer to Pointer)2.结构体与指针3.函数指针第四部分:动态内存管理堆内存分配常见内存错误悬空指针(Dangling Pointe

2025-03-25 16:32:12 919

原创 C++进阶——类与对象

基本语法public: // 访问修饰符(后续详解)// 成员变量// 成员函数// 类外定义成员函数示例:汽车类public:// 成员变量int speed;// 成员函数// 创建对象Car myCar;// 调用方法// 输出: Toyota Red, Speed: 20 km/hreturn 0;

2025-03-22 20:05:57 395

原创 头方向细胞神经生物学原理及建模

头方向细胞是一类特殊的神经元,其放电活性与动物头部在水平面的朝向密切相关,而与位置、姿势或行为无关。当头部转向特定“最优方向”时,相应方向的神经元会高频放电,偏离该方向时放电率迅速降低,表现出极强的方向选择性。其核心功能是为大脑提供实时方位信息,支持空间记忆和路径整合。

2025-03-17 17:36:10 232

原创 组合数学——鸽巢原理

假设n个抽屉至多有1件物品,那么至多有n件物品,与有n+1件物品的条件矛盾,故鸽巢原理成立。个“物品”),根据鸽巢原理,至少有两个数属于同一余数类,即这两个数的余数相同。证明任意选取的 n + 1个整数中,必存在两个数,它们的差为n的倍数。如果把n+1件物品放进n个抽屉,必定存在至少一个抽屉里有超过两件物品。个整数中,必存在两个数,它们的差为。件物品,与题设矛盾,故原定理成立。个物品放进n个抽屉,则第。件物品,则n个抽屉最多有。

2025-03-13 17:29:31 1134

原创 建图——单目地图重建

前面介绍的特征点的深度确定实际上已经建立了地图,不过是稀疏地图。对于实际导航、避障等的地图要求的是稠密地图。所以这篇文章先介绍单目相机进行稠密地图重建。此方法广泛应用于经典SLAM系统(如LSD-SLAM、ORB-SLAM的稠密模块),是单目稠密重建的数学基础。是经典多视图几何方法的核心技术。由块匹配的相似性计算(如 SSD 的曲率)。通过配方法合并指数项,可得更新后的均值和方差。(由块匹配得到),假设观测噪声为高斯分布。接下来介绍块匹配的方法。单目稠密地图重建中,(由极线搜索得到),)时,认为深度收敛。

2025-03-12 16:29:55 914

原创 回环检测——词袋模型

简单来说就是误差会随着机器人的运动逐渐积累。而回环检测可以检测是否回到了起点,或者曾经来过的位置。用这个信息来修正系统的误差,相当于每次回到原点都进行一次校准。从而避免误差的持续累积。是回环检测中最流行的方法之一,这篇文章将介绍SLAM回环检测中的词袋模型,以及用C++的BoW库(以DBoW3为例)在Linux环境下实现字典训练和相似度计算的完整流程。词袋模型(Bag of Words, BoW)是一种将图像特征编码为“视觉单词”的技术,常用于SLAM中的回环检测。

2025-03-09 16:54:12 722

原创 位姿图优化

实际上,经过若干次迭代之后,收敛的特征点位置变化很小,发散的外点则已被剔除。对收敛点再进行优化,似乎是有些费力不讨好的。因此,我们更倾向于在优化几次之后就把特征点固定住,而不再实际地优化它们的位置估计。形式过于复杂,我们通常取它们的近似。接下来就可以按照前面的最小二乘问题的方法进行求解。用高斯牛顿法等方法。这种把优化变量去除特征点,只剩下位姿的优化问题就构成了。由于存在噪声,这个式子不会严格相等,于是上式两边左乘。两个位姿构成了结点,过度位姿构成了位姿图的边。,但由于噪声等误差的存在而并不等于0。

2025-03-08 19:08:31 845

原创 滑动窗口法——实践中的BA

带有相机位姿和空间点的图优化称为BA,它能够有效地求解大规模的定位与建图问题。但是在SLAM过程中,往往需要控制BA的规模,以保持计算的实时性。最简单的控制BA规模的思路,是仅保留离当前时刻最近的N个关键帧。于是,我们的BA将被固定在一个时间窗口内,离开这个窗口的则被丢弃。这种方法称为滑动窗口法。目标:在计算资源受限的情况下,通过维护一个固定大小的状态窗口,持续优化最新的相机位姿和地图点,同时边缘化旧状态以保持计算效率。变量定义:优化目标:最小化窗口内所有观测的重投影误差:E(x)=∑i=1M∑j∈V

2025-03-04 21:12:58 587

原创 视觉SLAM中Bundle Adjustment(BA)问题

重投影误差:对于第iii个相机位姿(参数化为李代数ξi∈se3ξi​∈se3)和第jjj个三维点Xj∈R3Xj​∈R3,其投影到图像的观测像素坐标为uijuij​。pijπexp⁡ξi∧Xjpij​πexpξi∧​Xj​其中π⋅\pi(\cdot)π⋅eijuij−pijeij​uij​−pij​目标函数:min⁡ξ。

2025-03-03 17:18:58 905

原创 直接法估计相机位姿

光度误差:基于灰度不变假设,直接比较像素亮度。李代数扰动模型:用于计算位姿变化对投影点的影响。雅可比矩阵:结合图像梯度和几何变换导数,指导优化方向。多尺度优化:还可以采用图像金字塔提高鲁棒性和收敛性。通过迭代优化,直接法能够有效估计相机的位姿变化,适用于特征缺失的场景,但对光照变化和初始值敏感。

2025-03-02 16:34:37 1351

原创 运动跟踪——Lucas-Kanade光流

  前面的文章我们介绍了使用特征点估计相机运动的方法。尽管其在视觉里程计中占据主流地位,但它至少有以下缺点:  因此我们通过使用光流法跟踪特征点的运动,替代特征点的匹配。光流法的计算时间要优于特征点匹配。  计算部分像素运动的称为稀疏光流,计算所有像素的称为稠密光流。稀疏光流以Lucas-Kanade光流为代表,并可以在SLAM中用于跟踪特征点位置。稠密光流以Horn-Schunck光流为代表。文章以LK光流为例进行介绍。Lucas-Kanade(LK)光流法是一种基于亮度恒定假设和局部运动一致性假设的稀

2025-03-01 17:30:27 881

原创 ICP-通过一组匹配的3D点估计相机运动

通过最大化点对之间的协方差,使得变换后的源点云与目标点云在最小二乘意义下对齐。通过上述步骤,可高效求解已知匹配3D点对的刚体变换,适用于点云配准、物体位姿估计等场景。的奇异向量反映了点云之间的主要对齐方向。),其对角线元素绝对值不超过1。通过SVD分解,协方差矩阵。则通过质心差校正整体偏移。目标是求解刚体变换旋转矩阵。的对角线元素尽可能大。利用迹的循环置换性质。

2025-02-28 22:45:17 1021

原创 与视觉SLAM相关的李代数知识

中,我们使用了李代数进行优化求解,以去除旋转矩阵本身的约束以简化优化问题。因此有必要对相关的李代数知识进行讲解。SO(n)和SE(n)在实数空间上是连续的。如果某种集合中的成员进行某种运算,得到的结果仍然属于这个集合,则这种运算是“良好的运算”,即对这个运算是。只有一个(良好的)运算的集合,称之为群。旋转矩阵和变换矩阵都是对乘法封闭的群。通过扰动模型和反对称矩阵的性质,可高效计算旋转矩阵李代数的导数,为非线性优化提供理论支持。,其中p为三维点,p’ 为观测值。导数的物理意义是:当李代数参数。

2025-02-26 18:55:28 743

原创 最小化重投影误差求解PnP

旋转矩阵本身带有约束,即正交且行列式为1。而有约束的优化问题比无约束的优化问题复杂的多。因为李代数的特点,李代数表示的天然满足旋转矩阵的约束,因此通常使用。因为这个误差是将3D点的理论投影位置与观测到的实际投影位置之间的误差,因此称为。求相机的位姿R,T。

2025-02-24 17:15:47 1055

原创 PnP——根据3D与2d图片估计相机运动

当知道n个3D空间点及其投影位置和2d像素点时,如何估计相机的位姿。是求解3D到2D点对运动的方法。

2025-02-23 19:19:38 1061

原创 非线性最小二乘拟合问题

高斯牛顿法中采用的近似二阶泰勒展开只能在展开点附近有较好的近似效果,所以我们很自然地想到应该给∆x添加一个范围,称为。SLAM的目标是最小化运动方程和观测方程的误差,这就是一个最小二乘问题。而两个方程通常是非线性的,因此也是一个。的求解要求H可逆,当H不可逆时,求解会出现问题。是f(x)的一阶导数。这个范围限定了二阶近似的有效区域,这类方法也称为。2.对于第k次迭代,求出当前的雅可比矩阵。之后类似高斯牛顿法求解即可。(此时这个方程是关于。

2025-02-21 20:33:11 758

原创 三角测量——用相机运动估计特征点的空间位置

经过对极约束的求解,现在已知R,t,我们想求解两个特征点的深度z1,z2。(在单目相机模型中,深度被抹去了,因此若想建图需要求解‘z’),即,两条线在两个平行的平面中,而两个平面互相平行。因此我们会选择两条线最近的的近似为p点,也就是。当然,由于噪声的存在,我们估得的R,t不一定精确使式子成立,所以更常见的做法是求。使用对极约束估计了相机运动后,接下来利用相机运动估计特征点的空间位置,使用的方法就是。的一个方程,可以根据它直接求得。该式左侧为零,右侧可看成。的存在,两条线可能会出现。

2025-02-11 22:56:40 1422

原创 对极几何方法——2D图片特征点估计运动

E为3×3的矩阵,有9个未知数。为了便于计算只考虑它的尺度等价性(即矩阵同时除以其中一个未知数,可以使得这个未知数变成1,这样的E也是等价的,从而可以减少一个未知数),使用8对点来估计E——这就是经典的。由于E和F只相差了相机内参,而内参在SLAM中通常是已知的,所以实践中往往使用形式更简单的E。考虑一对匹配点,它们的归一化坐标为x1=[u1,v1,1]T,x2=[u2,v2,1]T。同理,对于其他点对也有相同的表示。如果这八个点互不相关,即系数满秩,那么E的各元素就可由上述方程解得。

2025-02-08 20:13:02 877

原创 图像特征点提取与匹配

有限性:数量较少局域性:特征信息只与较小的区域有关可重复性:相同的特征点可以在相邻帧图片中找到可区分性:不同的特征点易于区分图1可作为特征点的像素点图1 可作为特征点的像素点图1可作为特征点的像素点特征点由**关键点(Key-point)和描述子(Descriptor)**两部分组成。关键点:该特征点在图像里的位置,有些特征点还具有朝向、大小等信息描述子:描述关键点,用于与其他特征点进行区分。

2025-02-05 23:04:12 807

原创 传感器——针孔相机模型

针孔相机模型是一种描述相机成像原理的数学模型,模拟了相机将三维世界中的物体投影到二维图像平面上的过程。而像素坐标(u,v)通常经过一个平移。和缩放α,β(x和y轴上的缩放比例)针孔相机模型的建模及分析过程。

2025-02-05 15:21:35 1264

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除