视觉萌新、-CSDN博客

原创【具身数据异构对齐】HPT——何恺明团队用于解决具身数据集异构问题的算法Scaling Proprioceptive-Visual Learning with Heterogeneous

本文设计了异构预训练算法（heterogenous pre-training），将来自不同机器人实例的本体状态数据和视觉数据做信息对齐，提取共享表征。新的实例只需要少量的数据和训练来将其robot-specific特征对齐成通用的特征，进一步适配于当前的网络算法。

2025-05-04 21:03:06 1134 1

原创【机器人入门必看】刚体在三维空间中的旋转变换

在机器人学中常有两个坐标系，一个是惯性坐标系（或者叫世界坐标系），可以认为它是固定不动的，另一个是相机或者机器人，是一个移动的坐标系。一个常见的问题就是：相机视野中某个向量p，它在相机坐标系下的坐标为pc，在世界坐标系下的坐标为pw，pc与pw如何进行转换？

2025-04-14 10:00:00 1198

原创【通用灵巧手抓取】UniDexGrasp++算法学习——基于几何感知的课程迭代式专才-通才学习策略 Geometry-aware Curriculum and Iterative

论文题目：UniDexGrasp++: Improving Dexterous Grasping Policy Learning via Geometry-aware Curriculum and Iterative Generalist-Specialist Learning这篇文章的核心思想其实是对原始复杂的任务做拆解，抓握任务跟物体的几何特征息息相关，几何特征相似的物体，抓握策略也可以非常相似，因此我们可以根据物体的几何特性来对原始的抓握任务做划分，将几何特性相似抓握任务的划分到同一子任务集合下面

2025-03-31 10:15:00 1108

原创【百万灵巧手抓握数据】DexGraspNet算法学习——首篇通大规模通用灵巧手抓握数据合成算法 A Large-Scale Robotic Dexterous Grasp Dataset！

论文题目：DexGraspNet: A Large-Scale Robotic Dexterous Grasp Dataset for General Objects Based on Simulation作者提出了一种用于合成灵巧手抓握数据的方法，并且利用该方法构建了第一个用于灵巧手抓握训练的大规模仿真数据集。该数据集包含ShadowHand灵巧手对5355个物体的132万次灵巧抓取，每个物体实例有超过200种不同的抓取方式，物体的类别总数超过133类

2025-02-25 17:53:33 1044

原创【万字解读、通用灵巧手抓取】UniDexGrasp算法学习——王鹤老师首篇通用灵巧手抓取算法Universal Robotic Dexterous Grasping

论文题目：《UniDexGrasp: Universal Robotic Dexterous Grasping via Learning Diverse Proposal Generation and Goal-Conditioned Policy》在本工作中，作者提出了一种可以实现通用灵巧手抓取的算法，算法可以在现实的机器人设置中完成数百中物体类别的抓握（包括seen和unseen物体类别），并且模型只需要输入深度观测数据和机器人本体的感觉信息（depth observation and robot p

2025-02-18 10:00:00 2056

原创【具身智能】AgiBotWorld数据集介绍——智元百万真实机器人数据集

AgiBotWorld是智元机器人开源的一个百万级真实场景数据集，旨在推动具身智能的发展。该数据集包含多种日常技能，如抓取、放置、搅拌、折叠等，几乎涵盖人类日常生活的绝大多数动作需求。数据采集依托于配备8个摄像头的机器人平台，结合高精度传感器，实现了全域真实场景的高质量数据采集。

2025-02-11 10:00:00 2032

原创【灵巧手抓握】ILDA算法学习：同类别不同物体的抓握泛化——Learning Generalizable Dexterous Manipulation from Human Grasp

论文题目《LearningGeneralizableDexterousManipulationfromHumanGraspAffordance》在本文中，作者提出了一种新的灵巧抓握方法，可以实现同一类别中的新物体实例的抓握泛化，也就是实现同类别多对象的抓握。作者首先根据现有的人类抓握可供性模型（humangraspaffordancemodel）生成人类手与同一类别中不同物体交互的大规模演示（demonstration）。

2025-01-18 17:17:20 1427

原创【深度强化学习】PPO：近端策略优化——从理论讲解到源码解析

PPO算法是一种强化学习算法，用于解决策略优化问题。它通过引入一个重要性采样的约束，确保在更新策略时，新的策略与旧策略的差异不会过大，从而避免过度优化带来的不稳定性。PPO通过目标函数中的剪切操作来限制策略更新的幅度，使得策略更新既能进行有效探索，又不会导致性能剧烈波动。该算法的优点在于其实现简单、样本效率高、且在多种任务中表现稳定。PPO常用于强化学习中的连续控制任务，并已被广泛应用于机器人控制、自动驾驶等领域。与传统的强化学习方法相比，PPO避免了复杂的超参数调节，具有较强的鲁棒性。

2025-01-18 10:00:00 1772

原创【深度强化学习】AC系列算法：演员-评论员算法——从理论讲解到源码解析

AC（Actor-Critic）算法是强化学习中的一种策略梯度方法，结合了策略优化和价值评估。它包括两个部分：Actor（演员）负责选择动作，Critic（评论家）评估当前策略的价值并为Actor提供反馈。Critic通过计算状态的价值函数（如V值或Q值）评估策略的好坏，Actor根据Critic的反馈调整策略。AC算法通过最小化优势函数（表示当前动作的相对优劣）来更新Actor和Critic。该算法可以处理连续动作空间和复杂环境，广泛应用于机器人控制和游戏AI等领域。由于Actor和Critic并行学习，

2025-01-17 10:11:09 973

原创【深度强化学习】DDPG：深度确定性策略梯度算法——从理论讲解到源码解析

深度确定性策略梯度（DDPG）常常用于连续控制的领域，由决策网络和价值网络构成，决策网络控制智能体做运动，面对一个状态sss输出一个动作，价值网络不控制智能体，只是基于状态sss来对输出的动作打分，从而指导决策网络的训练。确定性策略与不确定性策略的区别不确定性策略：对于离散的动作空间，决策函数往往会对每个动作输出一个概率值，智能体根据所得的概率分布随机从动作空间中选取一个动作来执行。即使某一动作的概率值最大，最后也不一定能选到那个动作，因此该策略称为不确定性策略确定性策略。

2025-01-17 10:00:00 370

原创【深度强化学习】DQN：深度Q网络算法——从理论讲解到源码解析

DQN算法中文称为深度Q网络算法，是深度强化学习算法的一种典型算法。核心思想：训练动作价值函数Q，用于估计当前状态s下选取各个动作a所产生的积累收益，之后选择积累收益最大的动作a，其中a的范围包括整个动作空间。

2025-01-16 16:49:22 1507

原创【灵巧手抓握】GraspTTA算法学习：GraspCVAE、ContactNet基于物理一致性的抓握姿态生成——Hand-Object Contact Consistency Reasoning

论文题目《Hand-Object Contact Consistency Reasoning for Human Grasps Generation》作者认为手部接触点和物体接触区域达到相互一致对于抓握的生成至关重要。为了实现这一点，作者提出将两个独立的模型统一起来，用于手部抓握合成和物体接触图估计，作者证明了手部接触点和物体接触图之间的一致性约束不仅有助于在训练期间优化模型得到更好的抓握姿态，而且这种约束还提供了一个自监督任务，在测试期间可以对新物体调整抓握姿态。

2025-01-16 15:44:12 1028

原创【VLN入门】一文搞懂视觉语言导航：从任务介绍到基本算法讲解

视觉语言导航任务就是给定智能体一个语言指令(instruction)，之后让智能体参考指令内容，导航到指定的目标地点，与传统基于SLAM的导航策略不同，智能体并没有预先见过这个环境，只能通过对环境的观测（例如RGB图、深度图），再结合语言指令的意图，在环境中做探索，慢慢探索到指定的位置。

2024-12-23 20:17:08 5009 7

原创【超详细】VLN算法学习：GridMM——使用网格记忆图来表征历史轨迹中的场景空间关系GridMM: Grid Memory Map for VLN

论文题目：《GridMM: Grid Memory Map for Vision-and-Language Navigation》在视觉语言导航中，历史信息在环境理解中起着重要的作用。本算法同时使用RGB图像和深度图来观测每一个节点的环境信息，作者提出了一种网格记忆图（Grid Memory Map, GridMM），用于在导航过程中对全局历史观测进行建模，利用时间和空间信息来描述全局访问环境。

2024-12-23 11:00:00 1403 3

原创【扩散模型】算法笔记：GDP——首个统一图像恢复与增强的算法Generative Diffusion Prior for Unified Image Restoration and Enhancem

论文题目：《Generative Diffusion Prior for Unified Image Restoration and Enhancement》在本文中，作者提出了用于图像恢复和增强的GDP算法，利用训练好的扩散模型（DDPM）作为通用图像恢复和增强的有效先验，使用退化的图像作为指导。作为一个统一的图像恢复框架，GDP不仅适用于各种线性逆问题，而且第一次推广到非线性、盲目的图像恢复和增强任务。

2024-12-22 17:31:58 2177 1

原创【从原理到代码实现】点云与图像做映射（点云上色）——以KITTI、nuScenes数据集为例

本文主要从相机的成像原理讲起，讲述如何将图像数据与点云数据做对应，也就是将点云数据映射到图像上，选取图像上对应的RGB像素点，当做当前点云的颜色数据，从而实现点云上色目的。本文以KITTI、nuScenes数据集为例，给出了相关的代码参考和注释

2024-12-22 13:47:47 2631

原创【扩散模型】通过最简单的代码案例掌握扩散模型的算法流程

扩散模型主要包括前向过程（不断往输入数据中添加噪声）和后向过程（对加噪图像执行去噪、恢复目的）。前向过程前向过程不断添加噪声，随着采样步的增加，噪声占比不断增加，反向过程逐步实现去噪目的，从而恢复图像数据。本文通过最简单的代码案例来学习扩散模型的算法流程。

2024-12-22 13:11:26 1318

原创【超详细】VLN算法学习：AZHP——使用自适应区域分层规划器来实现层次化导航的目的Adaptive Zone-aware Hierarchical Planner for VLN

论文题目：《Adaptive Zone-aware Hierarchical Planner for Vision-Language Navigation》VLN任务具有分层特性，它由一个高阶过程（即子目标的设置）和一个低阶过程（即子目标的执行）组成，子目标（sub-goal）是指到达一个子区域（sub-region）的目标。本文提出了一个自适应区域感知的分层规划器（Adaptive Zone-aware Hierarchical Planner, AZHP）来建模这一分层规划的过程。

2024-12-22 13:09:17 1513 1

原创【万字解析，超详细！】BEVFormer——首篇使用纯视觉算法实现BEV感知的文章（自动驾驶入门必看）

BEV特征是连接时间和空间的理想桥梁，这也是自动驾驶任务中使用BEV特征执行感知任务的另一个动机。对于人类的视觉感知系统而言，时间信息在推理物体的运动状态和识别被遮挡的物体方面起着至关重要的作用，许多视觉领域的工作已经证明了使用视频数据的有效性。然而，现有基于多摄像头的3D目标检测算法很少利用时间信息，在自动驾驶任务中，场景物体变化很快，简单地叠加跨时间戳的BEV特征会带来额外的计算成本和干扰信息。受递归神经网络（RNN）的启发，作者利用BEV特征递归地传递从过去到现在的时间信息

2024-12-21 21:40:21 3048

原创【视觉语言导航】VLN辅助任务：MLM、SAP、SAR、SPREL——预训练、微调中常用的提点策略

本文主要介绍了在视觉语言导航算法的训练过程中常用的四种辅助任务：MLM、SAP、SAR、SPREL。其中MLM主要用于在导航背景下对齐文本特征与图像特征；SAP和SAR两个辅助任务能够学习如何根据指令和上下文历史信息做出动作决策；SPREL主要帮助智能体理解观测图像的空间关系

2024-12-21 17:51:17 1635

原创【超详细】VLN算法学习：DUET——首篇使用Transformer来建模全局图节点相关性的工作Think Global, Act Local:Dual-scale Graph Transformer

论文题目：《Think Global, Act Local: Dual-scale Graph Transformer for Vision-and-Language Navigation》这一篇是非常经典的“边走边建图”论文，利用transformer建模历史节点之间的全局相关性，后续有很多VLN方法是基于这篇文章的框架做的改进。本文采用图结构存储全局的历史节点信息，并且利用transformer建模节点与节点之间的相关性

2024-12-21 17:41:41 2378 1

原创 Docker学习笔记：Ubuntu上的Docker安装教程

本博客主要讲解了如何在 Ubuntu 上安装 Docker。Docker 是一种基于容器的技术，用于简化应用程序的开发、部署和管理。通过 Docker，用户可以将应用及其依赖打包成容器镜像，确保在不同环境中一致运行。与传统虚拟化相比，Docker 容器占用更少的资源，启动更快，且能够提供应用和服务的环境隔离。

2024-11-06 21:13:45 463 1

原创【Linux报错】添加密钥失败——gpg: no valid OpenPGP data found.

在添加GPG官方密钥时，有时候可能会因为网络问题，无法在服务器端下载密钥文件。对此，我们可以将GPG key下载到本地电脑，然后上传到远程服务器。

2024-09-28 21:34:11 8383 2

原创【VLN环境配置】Matterport3DSimulator——用于视觉语言导航的虚拟仿真引擎环境配置

Matterport3D模拟器是一个用于视觉语言导航任务的高质量虚拟环境，基于真实的室内空间创建，提供丰富的视觉和语义信息。它支持多种房间布局和多样化的家具元素，使导航任务更接近现实复杂性。在该模拟器中，代理体根据自然语言指令进行导航，需要理解指令并结合视觉信息进行路径规划。Matterport3D提供高分辨率图像和详细的3D结构，便于训练和评估导航算法的性能，并与MatterSim等工具结合进行大规模仿真实验，推动视觉理解与语言理解的研究。

2024-09-28 20:38:17 2968 12

原创 Linux常用指令：fuser指令——捕获某个文件系统的进程信息（也可以捕获显卡等硬件上的进程）

fuser是 Linux 系统中的一个命令行工具，用于显示哪个进程正在使用特定的文件、目录或套接字，可以捕获某个文件系统的进程信息（也可以捕获显卡等硬件上的进程）。

2024-08-09 23:58:30 1161 1

原创 PyTorch学习笔记：F.pad——张量填充操作

功能：对张量数据执行填充操作input：待填充的n维张量；pad：每个维度上的填充大小，输入是大小为m的元组数据；mode：填充方式，可选择4种——constantreflectreplicatecircular；constant：固定填充，填充固定的数值，数值大小由value确定；reflect：镜像填充，以矩阵边缘为对称轴，将反方向的对称元素填充到最外围；replicate：复制填充，使用输入边界的复制值填充张量；circular：循环填充，重复矩阵边界另一侧的元素；

2024-08-09 15:25:17 2222

原创 Pytorch学习笔记：nn.MultiheadAttention——多头注意力机制

功能：创建一个多头注意力模块，参考论文《attention is all you need》

2024-08-03 21:20:37 3093

原创 PyTorch学习笔记：data.BatchSampler——修改batch的封装策略

如果在训练过程中对封装的batch有额外的需求时（如Faster RCNN，在采样时图像高宽比例位于同一区间的需要被封装到一个batch里），可以通过定义一个新类实现，该类需要继承BatchSampler，主要通过修改迭代方法__iter__(self)来实现。

2024-08-03 21:12:59 1028

原创 PyTorch学习笔记：cuda方法——查看显卡信息

PyTorch学习笔记：cuda方法——查看显卡信息

2024-02-21 20:05:33 2663 1

原创 Python常用库：tqdm——构建进度条

功能：构建进度条，共有两种构建策略，一个是基于可迭代的对象构建进度条，做for循环迭代时会自动更新进度条；另一个是构建手动更新的进度条，这种方式灵活性更强

2024-02-21 18:09:34 812

原创【算法学习、超详细】Deformable DETR：可变形注意力机制——DEFORMABLE TRANSFORMERS FOR END-TO-END OBJECT DETECTION

论文题目：《DEFORMABLE DETR: DEFORMABLE TRANSFORMERS FOR END-TO-END OBJECT DETECTION》在本文中，作者提出了可变形注意力机制，将transformer的计算度压缩为线性复杂度，在降低DETR推理速度、加速模型收敛的同时引入了多尺度信息，极大地提升了DETR目标检测算法的性能。

2024-02-21 16:03:30 4901 1

原创【算法学习、超详细】DINO用于视觉自监督学习的知识蒸馏算法——Emerging Properties in Self-Supervised Vision Transformers

论文题目：《Emerging Properties in Self-Supervised Vision Transformers》|作者利用知识蒸馏和动量更新策略实现了ViT模型在视觉任务上的自监督训练，通过摆脱标签的约束，充分挖掘了ViT算法的特征表示潜力。利用自监督学习的ViT特征明确包含了场景布局，特别是对象边界，这些关注区域可以在最后一个自注意力关注模块中直接提取，同时，自监督ViT网络所提取的特征在基本近邻分类器k-NN下表现特别好，无需任何微调就可以在ImageNet上达到78.3%的准确率。

2024-02-21 11:57:12 3448 2

空空如也

空空如也