自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(65)
  • 收藏
  • 关注

原创 深度学习必备算法-2.卷积神经网络理解

最早就是卷积神经网络把人工智能、深度学习带火了,它是很关键的一个东西。在视觉中有很多应用场景,包括目标检测、位姿估计等等。

2025-06-12 16:58:07 422

原创 一文讲懂VLA的原理、进展、挑战 - 2025.5.7 - 美国康奈尔大学(进展篇)-内含数十种VLA的特点大表

例如,Figure AI 开发的 Helix2 人形机器人,利用全融合 VLA 模型以高频率执行全身操控,实时控制手臂、双手、躯干,甚至细微的手指运动。一点点传感器误差、模型漂移,或是视觉环境的亮度变化,都可能导致策略偏差——可想而知,刀口上的手术机器人可容不得哪怕 0.01% 的出错率。例如,在果实采摘任务中,如图 15 所示,一台配备 VLA 的地面机器人可利用图像中的成熟度特征识别可采摘果实,解析“只采A级果实”等用户设定标准,并通过动作token控制末端执行器执行对应运动序列。

2025-06-12 09:56:36 229

原创 大模型驱动的具身智能: 发展与挑战--综述--中国电信人工智能研究院--2024.8.29

这篇综述是中文的,所以只会提取一些我个人之前不清楚的点。那么我的文章框架也会跟原文略有不同。

2025-06-10 20:17:11 751

原创 GR00T N1-英伟达-双系统通用VLA-2025.3.27-开源

在看过一些VLA论文也好,通用策略也好,技术报告等,HELIX、Hi Robot、理想AI这种大团队/公司出的双系统策略经过验证,比端到端更具有实践意义和实际应用价值,但大部分都未开源。所以说英伟达发布的GR00T N1还是很有含金量的。截至2025.6.5收获了4k+的星标N1 把近期的三个工作再次精进了一些。

2025-06-10 10:52:36 931

原创 深度学习必备算法-1.神经网络理解

机器学习中的算法挺难,数学要求挺高。深度学习其实没有那么难,而且目前应用场景广,方便,其中之一的原因就是他更简单。机器学习任务中,经常要“我觉得什么重要”,很主观,问题就在于“你觉得”对的东西,不一定对,“你觉得”重要的数据,不一定重要。那么深度学习就是让这个主观的思考交给了计算机,让它自己去决定。

2025-06-09 19:19:54 1481

原创 Hi Robot-分层学习系统-2025.2.26-π系列-暂未开源

Hi Robot 可以被称为大脑加强版的π0。以下是来自项目页的引子:你上一次做一道新菜是什么时候?你看着食谱,摆好食材,开始动手。脑子里会有个小声音说:“哦,我忘了,要加番茄。”你会认真思考每一步,时不时地再检查一下食谱。也许你的朋友还提醒你一句:“小心,别烧糊了。心理学家丹尼尔·卡尼曼(Daniel Kahneman)描述了人类解决问题的两种方式,他称之为“”(System 1)和“系统1是本能的、自动的;而系统2是深思熟虑的、有意识的。做一道新菜时用的是系统2——那正是你脑中那个“小声音”。

2025-06-07 19:14:04 1137

原创 π0-FAST-针对VLA模型的高效动作token化技术-2025.1.16-开源

π0-FAST解决了视觉-语言-动作(VLA)模型在高频控制任务中的动作token化难题。传统"分箱式"token化在高频场景下会导致数百个冗余token,使模型陷入局部最优。π0-FAST创新性地采用离散余弦变换(DCT)对动作信号进行频域压缩,显著降低token间相关性,提升训练效率。该方法在真实机器人数据集DROID上验证有效,支持零样本泛化。配套发布的FAST+通用分词器已在百万级动作轨迹上预训练,支持多机器人平台。实验显示,结合π0模型时,训练速度比扩散模型快5倍,性能相当。

2025-05-30 10:55:30 1063

原创 π0-通用VLA模型-2024.11.13-开源

通用机器人策略模型π0于2025年2月开源,在GitHub获得3.4k星标。该模型通过流匹配架构实现多任务控制,支持单臂、双臂及移动平台操作,任务复杂度显著提升(如叠衣服、组装箱子等)。π0基于预训练视觉语言模型(PaliGemma),结合跨形态机器人数据集训练,通过独立"动作专家"模块实现50Hz高频动作生成。研究团队来自伯克利等机构,采用两阶段训练:先在大规模多样化数据(1万+小时)预训练,再针对特定任务微调。实验证明该架构在直接执行、语言指令跟随和新技能

2025-05-29 16:32:35 1186

原创 一文讲懂VLA的原理、进展、挑战 - 2025.5.7 - 美国康奈尔大学(原理篇)

VLA综述,token化过程,VLA原理

2025-05-29 16:26:57 1628 5

原创 MoManipVLA-北京邮电-2025.3.17-移动操控-未完全开源

本文提出了一种高效的策略适配框架——MoManipVLA,用于将预训练的固定底座视觉语言动作(VLA)模型迁移到移动操控任务中,以提升机器人在未知环境中的任务执行能力。传统移动操控方法因缺乏大规模训练数据而难以泛化,而VLA模型虽在固定底座任务中表现出色,却无法直接应用于移动操控。MoManipVLA通过生成高泛化性的机械臂路径点,并设计双层优化框架,分别规划底盘和机械臂的运动轨迹,确保物理可行性。实验表明,该方法在仿真和真实环境中均显著优于现有技术,且部署成本降低50%。主要贡献包括策略适配框架、运

2025-05-21 19:39:00 904

原创 UniVLA-香港大学-单系统带导航-2025.5.9-开源

UniVLA 是一个统一的视觉语言动作(VLA)框架,旨在通过潜在动作模型从视频中提取任务相关的动作表示,从而实现跨不同环境和机器人形态的策略学习。该框架通过无监督方式从大规模跨载体视频中提取潜在动作,并利用语言指令将任务相关动态与无关视觉变化解耦。UniVLA 的核心创新在于其任务中心的潜在动作空间,使得模型能够高效利用互联网级别的无标注视频数据,并通过轻量级解码器将潜在动作转换为可执行轨迹。实验表明,UniVLA 在多种操作和导航任务上均优于现有方法,且预训练计算量和后续数据量显著减少。该框架的提出为机

2025-05-20 16:07:55 1018

原创 7. 进程控制-进程替换

文章主要介绍了进程替换的概念及其实现方式。进程替换通过exec系列函数实现,能够在当前进程中加载并执行新的程序,替换原有的代码和数据。单进程版示例展示了execl函数的使用,执行后原进程的代码被替换,后续代码不再执行。多进程版验证了子进程替换不影响父进程,且替换时发生写时拷贝。文章还详细介绍了exec系列函数的五种接口(execl、execlp、execv、execvp、execle),分别用于不同的参数传递方式,如列表、向量和环境变量。最后,文章探讨了环境变量的继承与传递,指出环境变量在进程创建时继承

2025-05-16 20:44:09 885

原创 RoboDual-上海交大-2025-2-6-开源

RoboDual论文介绍,双系统架构,OpenVLA

2025-05-16 14:50:01 1157

原创 半成品的开源双系统VLA模型,OpenHelix-发表于2025.5.6

本文探讨了开源双系统视觉-语言-动作模型(VLA)在机器人操控任务中的应用。随着OpenVLA的开源,VLA在真实机器人上的部署和效率问题引起了广泛关注。双系统方案,如Helix和MindVLA,成为热门研究方向,但缺乏开源资源限制了进一步研究。文章总结了现有双系统结构,评估其核心设计元素,并提出一种低成本开源模型。该模型结合了快速响应的System 1和深度推理的System 2,通过实时感知输入和定期任务规划,实现了实时性与深度推理能力的兼顾。文章还讨论了多模态大模型(MLLM)的选择、快系统小模型的设

2025-05-14 16:47:46 1211

原创 Helix:一种用于通用人形控制的VLA模型-技术报告-2025-2-20

Helix是一种通用视觉-语言-动作(VLA)模型,旨在提升机器人在多任务、多场景下的智能协作与操作能力。其核心创新在于采用了“双系统架构”:系统1(S1)负责高频实时动作控制,频率达200Hz,确保精确执行;系统2(S2)负责高层次任务规划与语义理解,频率为7-9Hz,支持零样本泛化和复杂任务分解。这种架构使Helix能够处理多机器人协作、长视距任务以及操作训练中未见过的物品,如通过自然语言指令协调机器人传递物品或执行复杂动作序列。此外,Helix完全在嵌入式低功耗GPU上运行,具备商业部署的可行性。

2025-05-10 17:14:37 871

原创 OpenVLA:开源的视觉-语言-动作模型-2024-9-5

基于互联网上大规模视觉-语言数据和多样化机器人演示预训练的大模型,有可能彻底改变我们教授机器人新技能的方式:不再需要从零训练新行为,而是可以通过微调一些模型参数就能执行新任务类似 GPT 不用重训,只需给点新例子就会写出新东西。但是因为缺乏高效微调的研究方法而且大多闭源(Google 的 RT 系列),导致不知道如何适配新任务,限制了模型的实际应用。现在OpenVLA来了,训练他所采用的数据是现实中真正机器人操作的视频/动作记录,不是模拟器中产生的数据。

2025-05-10 17:12:41 1426

原创 6. 进程控制

进程控制中的进程终止、进程等待

2025-05-08 19:51:56 855

原创 5. 进程地址空间

进程地址空间(一)

2025-04-30 11:53:45 606

原创 4.环境变量

并行与并发、环境变量、命令行参数

2025-04-28 18:06:00 953

原创 2. Linux开发工具

linux中基本工具的使用vim、gcc、makefile、git

2025-04-24 19:35:31 885

原创 3. 进程概念

冯诺依曼体系、操作系统、理解进程、fork、进程状态、进程优先级

2025-04-19 19:28:59 725

原创 13. C++入门基础***

C++基础的常见问题

2025-04-07 20:22:49 738

原创 12. STL的原理

STL六大组件之间的关系、原理

2025-03-30 21:45:49 984

原创 11. STL的使用

STL中常见容器的相关常见问题

2025-03-30 16:18:49 772

原创 10. 七大排序(含四种版本快排及优化) ******

七大排序的实现和原理,快排的四种排序-霍尔、挖坑、双指针、非递归,两种优化:三数取中法选key,小区间使用插入

2025-03-28 21:38:47 890

原创 9. 哈希****

哈希-位图-布隆过滤器-海量数据面试题

2025-03-26 15:55:17 903

原创 8.BST的缺陷解决方案:平衡树*****

目录1. AVL树1.1 性质1.2 具体实现细节大概如何实现的逻辑:怎样平衡:1.3 性能2. 红黑树2.1 性质2.2 具体实现细节怎样平衡:2.3 性能3. AVL 与 RBT 的区别AVL树也叫“高度平衡二叉搜索树”:2. AVL树-CSDN博客AVL树是一种自平衡二叉搜索树,通过维护每个节点的平衡因子(左右子树高度差不超过1)来确保树的平衡。其核心实现包括每个节点包含键值、左右子节点指针和高度信息。平衡因子 = 左子树高度 - 右子树高度,必须为 -1、0 或 1。按二叉搜索树规则插入节点。更新节

2025-03-24 17:51:47 698

原创 3. 红黑树

红黑树插入的细节模拟实现,很细

2025-03-24 16:17:04 962

原创 2. AVL树

AVL树插入-旋转的实现

2025-03-23 17:03:31 827

原创 7. 二叉树****

a[0]为堆顶,也是最大值,将他和最后一个元素交换,此时堆顶就是最小的,然后把这个最小的元素向下调整,直到满足还是大根堆。要注意使用向下调整建堆的前提是:左右子树是大或小堆,所以传的parent是叶子结点的父结点,size-1是最后一个叶子结点,-1 / 2 找到它的父节点。向上调整的时间复杂度是O(NlogN),向下调整的时间复杂度是O(N),向上向下只是建堆的方式,至于是建大堆还是小堆,要看建堆中的大于号小于号。最佳的方式就是用堆来解决。,想要更小的元素,就得把大的放到堆顶,比堆顶小的一来就出掉堆顶。

2025-03-22 19:57:26 944

原创 6. 顺序表和链表*****

顺序表与链表与高频考题

2025-03-18 21:01:17 1048

原创 5.编译链接和宏**

数据存储-大小端

2025-03-14 22:34:46 716

原创 4.数据存储**

三种表示方法均有符号位和数值位两部分,符号位都是用0表示正,1表示负,而数值位这三种表示方法各不相同。上面是紫色的&b的值,绿色的是&a的值,可以看出a,b分别存的是补码。上面的例子就是小端,-2的补码:ff ff ff fe,fe是。可能导致数据丢失,通常发生在将较大的类型赋值给较小的类型时。如果系统是小端序,最低有效字节存储在内存的低地址处,因此。是为了避免数据丢失,自动将较小的类型转换为较大的类型。计算机中的整数有三种表示方法,原码,反码,补码。是无符号字符类型,占用 8 位,取值范围是。

2025-03-13 22:17:17 708

原创 3. 自定义类型****

联合是一种特殊的自定义类型,这种类型定义的变量也包含一系列的成员,特征是这些成员共用一块空间(所以联合也叫共用体)union Unchar c;int i;4我们发现c和i共用了空间,大小为4。

2025-03-12 23:46:09 914

原创 2.库函数的模拟实现*****

如果目标内存区域的起始地址小于或等于源内存区域的起始地址,说明没有重叠,或者重叠部分不会影响复制。如果还和上面一样进行复制,c变成a,d变成b,e就变成a了,我们想要得复制结果是e是c,因为重叠影响了复制,导致内容被覆盖了。首先要有一个返回变量 ret,保存目标内存区域的起始地址,因为后面会对 dst++,防止这个位置丢失。),因为比较的是指针的地址值,而不是指针所指向的数据。先把c赋给e,dst 和 src 各自减一,b赋给d,a赋给c,同样是进行count步。

2025-03-12 21:52:14 1108

原创 优选算法—双指针

使用。

2025-03-04 22:23:17 938

原创 1. 数组和指针*****

指向整个数组的指针,而非单个元素。

2025-02-25 23:09:24 859

原创 17.C++类型转换

在C语言中,如果赋值运算符左右两侧类型不同,或者形参与实参类型不匹配,或者返回值类型与接收返回值类型不一致时,就需要发生类型转换,C语言中共有两种形式的类型转换:隐式类型转换和显式类型转换。编译器隐式执行的任何类型转换都可用static_cast,但它不能用于两个不相关的类型进行转换。缺陷:转换的可视性较差,所有的转换类型都是用一种相同的形式书写,难以跟踪错误的转换。1.隐式类型转换:编译器在编译阶段自动进行,能转就转,不能转就编译失败。用于将一个父类对象的指针/引用转换为子类对象的指针或引用(动态转换)

2025-02-25 23:01:15 742

原创 16. 特殊类设计

如果单例对象构造十分耗时或者占用很多资源,比如加载插件等,而有可能该对象程序运行时不会用到,但是程序一开始就进行初始化了,就会导致程序启动时非常缓慢。类的一个静态成员变量,它在程序启动时就被初始化,虽然我是在类中用类定义的,但是是静态对象,静态的不在类空间中,是在静态区的,所以没有先有鸡还是先有蛋的问题。的默认构造函数,创建单例对象,因为虽然是在类外,但是instance是类里的成员可以调用私有的构造。在 C++ 中,静态对象的析构函数会在程序结束时自动调用,利用这一特性,可以通过一个静态的。

2025-02-22 19:32:35 725

原创 15.智能指针

适用于。

2025-02-20 09:56:12 673

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除