想要成为计算机高手-CSDN博客

原创深度学习必备算法-2.卷积神经网络理解

最早就是卷积神经网络把人工智能、深度学习带火了，它是很关键的一个东西。在视觉中有很多应用场景，包括目标检测、位姿估计等等。

2025-06-12 16:58:07 422

原创一文讲懂VLA的原理、进展、挑战 - 2025.5.7 - 美国康奈尔大学（进展篇）-内含数十种VLA的特点大表

例如，Figure AI 开发的 Helix2 人形机器人，利用全融合 VLA 模型以高频率执行全身操控，实时控制手臂、双手、躯干，甚至细微的手指运动。一点点传感器误差、模型漂移，或是视觉环境的亮度变化，都可能导致策略偏差——可想而知，刀口上的手术机器人可容不得哪怕 0.01% 的出错率。例如，在果实采摘任务中，如图 15 所示，一台配备 VLA 的地面机器人可利用图像中的成熟度特征识别可采摘果实，解析“只采A级果实”等用户设定标准，并通过动作token控制末端执行器执行对应运动序列。

2025-06-12 09:56:36 229

原创大模型驱动的具身智能: 发展与挑战--综述--中国电信人工智能研究院--2024.8.29

这篇综述是中文的，所以只会提取一些我个人之前不清楚的点。那么我的文章框架也会跟原文略有不同。

2025-06-10 20:17:11 751

原创 GR00T N1-英伟达-双系统通用VLA-2025.3.27-开源

在看过一些VLA论文也好，通用策略也好，技术报告等，HELIX、Hi Robot、理想AI这种大团队/公司出的双系统策略经过验证，比端到端更具有实践意义和实际应用价值，但大部分都未开源。所以说英伟达发布的GR00T N1还是很有含金量的。截至2025.6.5收获了4k+的星标N1 把近期的三个工作再次精进了一些。

2025-06-10 10:52:36 931

原创深度学习必备算法-1.神经网络理解

机器学习中的算法挺难，数学要求挺高。深度学习其实没有那么难，而且目前应用场景广，方便，其中之一的原因就是他更简单。机器学习任务中，经常要“我觉得什么重要”，很主观，问题就在于“你觉得”对的东西，不一定对，“你觉得”重要的数据，不一定重要。那么深度学习就是让这个主观的思考交给了计算机，让它自己去决定。

2025-06-09 19:19:54 1481

原创 Hi Robot-分层学习系统-2025.2.26-π系列-暂未开源

Hi Robot 可以被称为大脑加强版的π0。以下是来自项目页的引子：你上一次做一道新菜是什么时候？你看着食谱，摆好食材，开始动手。脑子里会有个小声音说：“哦，我忘了，要加番茄。”你会认真思考每一步，时不时地再检查一下食谱。也许你的朋友还提醒你一句：“小心，别烧糊了。心理学家丹尼尔·卡尼曼（Daniel Kahneman）描述了人类解决问题的两种方式，他称之为“”（System 1）和“系统1是本能的、自动的；而系统2是深思熟虑的、有意识的。做一道新菜时用的是系统2——那正是你脑中那个“小声音”。

2025-06-07 19:14:04 1137

原创 π0-FAST-针对VLA模型的高效动作token化技术-2025.1.16-开源

π0-FAST解决了视觉-语言-动作（VLA）模型在高频控制任务中的动作token化难题。传统"分箱式"token化在高频场景下会导致数百个冗余token，使模型陷入局部最优。π0-FAST创新性地采用离散余弦变换（DCT）对动作信号进行频域压缩，显著降低token间相关性，提升训练效率。该方法在真实机器人数据集DROID上验证有效，支持零样本泛化。配套发布的FAST+通用分词器已在百万级动作轨迹上预训练，支持多机器人平台。实验显示，结合π0模型时，训练速度比扩散模型快5倍，性能相当。

2025-05-30 10:55:30 1063

原创 π0-通用VLA模型-2024.11.13-开源

通用机器人策略模型π0于2025年2月开源，在GitHub获得3.4k星标。该模型通过流匹配架构实现多任务控制，支持单臂、双臂及移动平台操作，任务复杂度显著提升（如叠衣服、组装箱子等）。π0基于预训练视觉语言模型（PaliGemma），结合跨形态机器人数据集训练，通过独立"动作专家"模块实现50Hz高频动作生成。研究团队来自伯克利等机构，采用两阶段训练：先在大规模多样化数据（1万+小时）预训练，再针对特定任务微调。实验证明该架构在直接执行、语言指令跟随和新技能

2025-05-29 16:32:35 1186

原创一文讲懂VLA的原理、进展、挑战 - 2025.5.7 - 美国康奈尔大学（原理篇）

VLA综述，token化过程，VLA原理

2025-05-29 16:26:57 1628 5

原创 MoManipVLA-北京邮电-2025.3.17-移动操控-未完全开源

本文提出了一种高效的策略适配框架——MoManipVLA，用于将预训练的固定底座视觉语言动作（VLA）模型迁移到移动操控任务中，以提升机器人在未知环境中的任务执行能力。传统移动操控方法因缺乏大规模训练数据而难以泛化，而VLA模型虽在固定底座任务中表现出色，却无法直接应用于移动操控。MoManipVLA通过生成高泛化性的机械臂路径点，并设计双层优化框架，分别规划底盘和机械臂的运动轨迹，确保物理可行性。实验表明，该方法在仿真和真实环境中均显著优于现有技术，且部署成本降低50%。主要贡献包括策略适配框架、运

2025-05-21 19:39:00 904

原创 UniVLA-香港大学-单系统带导航-2025.5.9-开源

UniVLA 是一个统一的视觉语言动作（VLA）框架，旨在通过潜在动作模型从视频中提取任务相关的动作表示，从而实现跨不同环境和机器人形态的策略学习。该框架通过无监督方式从大规模跨载体视频中提取潜在动作，并利用语言指令将任务相关动态与无关视觉变化解耦。UniVLA 的核心创新在于其任务中心的潜在动作空间，使得模型能够高效利用互联网级别的无标注视频数据，并通过轻量级解码器将潜在动作转换为可执行轨迹。实验表明，UniVLA 在多种操作和导航任务上均优于现有方法，且预训练计算量和后续数据量显著减少。该框架的提出为机

2025-05-20 16:07:55 1018

原创 7. 进程控制-进程替换

文章主要介绍了进程替换的概念及其实现方式。进程替换通过exec系列函数实现，能够在当前进程中加载并执行新的程序，替换原有的代码和数据。单进程版示例展示了execl函数的使用，执行后原进程的代码被替换，后续代码不再执行。多进程版验证了子进程替换不影响父进程，且替换时发生写时拷贝。文章还详细介绍了exec系列函数的五种接口（execl、execlp、execv、execvp、execle），分别用于不同的参数传递方式，如列表、向量和环境变量。最后，文章探讨了环境变量的继承与传递，指出环境变量在进程创建时继承

2025-05-16 20:44:09 885

原创 RoboDual-上海交大-2025-2-6-开源

RoboDual论文介绍，双系统架构，OpenVLA

2025-05-16 14:50:01 1157

原创半成品的开源双系统VLA模型，OpenHelix-发表于2025.5.6

本文探讨了开源双系统视觉-语言-动作模型（VLA）在机器人操控任务中的应用。随着OpenVLA的开源，VLA在真实机器人上的部署和效率问题引起了广泛关注。双系统方案，如Helix和MindVLA，成为热门研究方向，但缺乏开源资源限制了进一步研究。文章总结了现有双系统结构，评估其核心设计元素，并提出一种低成本开源模型。该模型结合了快速响应的System 1和深度推理的System 2，通过实时感知输入和定期任务规划，实现了实时性与深度推理能力的兼顾。文章还讨论了多模态大模型（MLLM）的选择、快系统小模型的设

2025-05-14 16:47:46 1211

原创 Helix:一种用于通用人形控制的VLA模型-技术报告-2025-2-20

Helix是一种通用视觉-语言-动作（VLA）模型，旨在提升机器人在多任务、多场景下的智能协作与操作能力。其核心创新在于采用了“双系统架构”：系统1（S1）负责高频实时动作控制，频率达200Hz，确保精确执行；系统2（S2）负责高层次任务规划与语义理解，频率为7-9Hz，支持零样本泛化和复杂任务分解。这种架构使Helix能够处理多机器人协作、长视距任务以及操作训练中未见过的物品，如通过自然语言指令协调机器人传递物品或执行复杂动作序列。此外，Helix完全在嵌入式低功耗GPU上运行，具备商业部署的可行性。

2025-05-10 17:14:37 871

原创 OpenVLA:开源的视觉-语言-动作模型-2024-9-5

基于互联网上大规模视觉-语言数据和多样化机器人演示预训练的大模型，有可能彻底改变我们教授机器人新技能的方式：不再需要从零训练新行为，而是可以通过微调一些模型参数就能执行新任务类似 GPT 不用重训，只需给点新例子就会写出新东西。但是因为缺乏高效微调的研究方法而且大多闭源（Google 的 RT 系列），导致不知道如何适配新任务，限制了模型的实际应用。现在OpenVLA来了，训练他所采用的数据是现实中真正机器人操作的视频/动作记录，不是模拟器中产生的数据。

2025-05-10 17:12:41 1426

原创 6. 进程控制

进程控制中的进程终止、进程等待

2025-05-08 19:51:56 855

原创 5. 进程地址空间

进程地址空间（一）

2025-04-30 11:53:45 606

原创 4.环境变量

并行与并发、环境变量、命令行参数

2025-04-28 18:06:00 953

原创 2. Linux开发工具

linux中基本工具的使用vim、gcc、makefile、git

2025-04-24 19:35:31 885

原创 3. 进程概念

冯诺依曼体系、操作系统、理解进程、fork、进程状态、进程优先级

2025-04-19 19:28:59 725

原创 13. C++入门基础***

C++基础的常见问题

2025-04-07 20:22:49 738

原创 12. STL的原理

STL六大组件之间的关系、原理

2025-03-30 21:45:49 984

原创 11. STL的使用

STL中常见容器的相关常见问题

2025-03-30 16:18:49 772

原创 10. 七大排序(含四种版本快排及优化) ******

七大排序的实现和原理，快排的四种排序-霍尔、挖坑、双指针、非递归，两种优化：三数取中法选key，小区间使用插入

2025-03-28 21:38:47 890

原创 9. 哈希****

哈希-位图-布隆过滤器-海量数据面试题

2025-03-26 15:55:17 903

原创 8.BST的缺陷解决方案：平衡树*****

目录1. AVL树1.1 性质1.2 具体实现细节大概如何实现的逻辑：怎样平衡：1.3 性能2. 红黑树2.1 性质2.2 具体实现细节怎样平衡：2.3 性能3. AVL 与 RBT 的区别AVL树也叫“高度平衡二叉搜索树”：2. AVL树-CSDN博客AVL树是一种自平衡二叉搜索树，通过维护每个节点的平衡因子（左右子树高度差不超过1）来确保树的平衡。其核心实现包括每个节点包含键值、左右子节点指针和高度信息。平衡因子 = 左子树高度 - 右子树高度，必须为 -1、0 或 1。按二叉搜索树规则插入节点。更新节

2025-03-24 17:51:47 698

原创 3. 红黑树

红黑树插入的细节模拟实现，很细

2025-03-24 16:17:04 962

原创 2. AVL树

AVL树插入-旋转的实现

2025-03-23 17:03:31 827

原创 7. 二叉树****

a[0]为堆顶，也是最大值，将他和最后一个元素交换，此时堆顶就是最小的，然后把这个最小的元素向下调整，直到满足还是大根堆。要注意使用向下调整建堆的前提是：左右子树是大或小堆，所以传的parent是叶子结点的父结点，size-1是最后一个叶子结点，-1 / 2 找到它的父节点。向上调整的时间复杂度是O(NlogN)，向下调整的时间复杂度是O(N)，向上向下只是建堆的方式，至于是建大堆还是小堆，要看建堆中的大于号小于号。最佳的方式就是用堆来解决。，想要更小的元素，就得把大的放到堆顶，比堆顶小的一来就出掉堆顶。

2025-03-22 19:57:26 944

原创 6. 顺序表和链表*****

顺序表与链表与高频考题

2025-03-18 21:01:17 1048

原创 5.编译链接和宏**

数据存储-大小端

2025-03-14 22:34:46 716

原创 4.数据存储**

三种表示方法均有符号位和数值位两部分，符号位都是用0表示正，1表示负，而数值位这三种表示方法各不相同。上面是紫色的&b的值，绿色的是&a的值，可以看出a，b分别存的是补码。上面的例子就是小端，-2的补码：ff ff ff fe，fe是。可能导致数据丢失，通常发生在将较大的类型赋值给较小的类型时。如果系统是小端序，最低有效字节存储在内存的低地址处，因此。是为了避免数据丢失，自动将较小的类型转换为较大的类型。计算机中的整数有三种表示方法，原码，反码，补码。是无符号字符类型，占用 8 位，取值范围是。

2025-03-13 22:17:17 708

原创 3. 自定义类型****

联合是一种特殊的自定义类型，这种类型定义的变量也包含一系列的成员，特征是这些成员共用一块空间（所以联合也叫共用体）union Unchar c;int i;4我们发现c和i共用了空间，大小为4。

2025-03-12 23:46:09 914

原创 2.库函数的模拟实现*****

如果目标内存区域的起始地址小于或等于源内存区域的起始地址，说明没有重叠，或者重叠部分不会影响复制。如果还和上面一样进行复制，c变成a，d变成b，e就变成a了，我们想要得复制结果是e是c，因为重叠影响了复制，导致内容被覆盖了。首先要有一个返回变量 ret，保存目标内存区域的起始地址，因为后面会对 dst++，防止这个位置丢失。），因为比较的是指针的地址值，而不是指针所指向的数据。先把c赋给e，dst 和 src 各自减一，b赋给d，a赋给c，同样是进行count步。

2025-03-12 21:52:14 1108

原创优选算法—双指针

使用。

2025-03-04 22:23:17 938

原创 1. 数组和指针*****

指向整个数组的指针，而非单个元素。

2025-02-25 23:09:24 859

原创 17.C++类型转换

在C语言中，如果赋值运算符左右两侧类型不同，或者形参与实参类型不匹配，或者返回值类型与接收返回值类型不一致时，就需要发生类型转换，C语言中共有两种形式的类型转换：隐式类型转换和显式类型转换。编译器隐式执行的任何类型转换都可用static_cast，但它不能用于两个不相关的类型进行转换。缺陷：转换的可视性较差，所有的转换类型都是用一种相同的形式书写，难以跟踪错误的转换。1.隐式类型转换：编译器在编译阶段自动进行，能转就转，不能转就编译失败。用于将一个父类对象的指针/引用转换为子类对象的指针或引用（动态转换）

2025-02-25 23:01:15 742

原创 16. 特殊类设计

如果单例对象构造十分耗时或者占用很多资源，比如加载插件等，而有可能该对象程序运行时不会用到，但是程序一开始就进行初始化了，就会导致程序启动时非常缓慢。类的一个静态成员变量，它在程序启动时就被初始化，虽然我是在类中用类定义的，但是是静态对象，静态的不在类空间中，是在静态区的，所以没有先有鸡还是先有蛋的问题。的默认构造函数，创建单例对象，因为虽然是在类外，但是instance是类里的成员可以调用私有的构造。在 C++ 中，静态对象的析构函数会在程序结束时自动调用，利用这一特性，可以通过一个静态的。

2025-02-22 19:32:35 725

原创 15.智能指针

适用于。

2025-02-20 09:56:12 673

空空如也

空空如也