- 博客(438)
- 收藏
- 关注
原创 一文速览MoE及其实现:从Mixtral 8x7B到DeepSeekMoE(含DS LLM的简介)
本文的前两部分一开始写于2023年12.23日,当时是属于此文《从Mistral 7B到MoE模型Mixtral 8x7B的全面解析:从原理分析到代码解读》的后半部分但2025年春节期间,deepseek火爆全球,其背后的MoE架构引发大量关注,考虑到MoE模型的重要性,特把MoE相关的模型独立成此文。
2025-01-31 18:18:32
14623
8
原创 一文通透让Meta恐慌的DeepSeek-V3:在MoE、GRPO、MLA基础上提出Multi-Token预测(含FP8训练详解)
他们的MTP策略主要旨在提高主模型的性能,因此在推理过程中,可以直接丢弃MTP模块,主模型可以独立正常运行此外,还可以重新利用这些MTP模块进行推测性解码,以进一步提高生成延迟// 待更。
2025-01-27 09:22:50
18042
12
原创 RoboVLM——通用机器人策略的VLA设计哲学:如何选择骨干网络、如何构建VLA架构、何时添加跨本体数据
前言本博客内解读不少VLA模型了,包括π0等,且如此文的开头所说前两天又重点看了下openvla,和cogact,发现总之,各种vlm + 各种动作预测头/方法,会出来很多vla当然,各种VLA我在本文的开头已经详细介绍过,可以参看《
2025-01-27 00:32:07
11060
5
原创 iDP3的人形遥操代码分析:数据收集、数据转换到人形机器人VR遥控(含动作重定向)
如此文《》的第三部分开头所说跑iDP3的整个流程分为:数据采集、数据转换、数据预处理,然后做训练、部署、可视化,具体而言,iDP3开源了两个代码仓库,一个是学习,一个是摇操作,其中对于后者,已经在这两篇文章里「」进行了详尽细致的分析,对于前者,则是本文。
2025-01-25 21:24:58
6320
2
原创 一文通透登上Nature的DeepSeek R1:如何通过纯RL训练以比肩甚至超越OpenAI o1(含Kimi K1.5、QwQ-32B的解读)
而DeepSeek-V3和Kimi K1.5的意义在于,即便它两和OpenAI o1的实现不一致(当然,也可能很大程度上一致) 也不是很重要的事情了,因为从结果的角度出发,它两的效果比肩甚至超越o1,单这一点 就足够了。没想到,DeepSeek-V3还没解读完,DeepSeek-R1又来了,而且几乎同一时期,Kimi K1.5也来了。有意思的在它两的技术报告里,很多指标都比肩甚至超越OpenAI的o1模型。因此,本文重点解读一下它两的技术报告。
2025-01-21 22:52:12
39225
11
原创 iDP3的训练与部署代码解析:从数据可视化vis_dataset.py、训练脚本train.py到部署脚本deploy.py
如此文《UMI——斯坦福刷盘机器人:通过手持夹爪革新数据收集方式,且使用DiffusionPolicy预测动作(含代码解读)》的开头所说,我司正在借助iDP3做通用化改写,使得一套策略控制各种机器人更改通讯脚本避免每来一套机械臂,就得比较费劲的写对应的通讯脚本至于的介绍详见此文实际改写时目标是去适配iDP3,从而借助iDP3达到对外通用化的目的相当于而关于iDP3的介绍,以及iDP3的learning代码在之前的文章都详细分析过了「前者详见,后者详见」,故本文侧重介绍iDP3的部署、训练、预处理。
2025-01-20 15:31:30
4599
4
原创 iDP3的Learning代码解析:逐步分解iDP3的数据集、模型、动作预测策略代码(包含2D和3D两个版本)
前言今25年1.14日起,我和同事孙老师连续出差苏州、无锡、南京、上海我们连连感慨,绝大部分工厂都将在今2025年开始做一系列智能升级、智能改造,包括且不限于线缆插拔、智能装配、打螺钉,而背后用的策略方法,也将从传统的深度学习方法,往大模型+模仿学习RL方面迁移,这是一股势不可挡的浪潮本想着这几天出差完后把ipd3的源码也做下解读,想了下,只要有时间空闲,我便开始解读吧,于此,今天便有了本文。
2025-01-16 16:54:46
5534
4
原创 一文速览CogACT及其源码剖析:把OpenVLA的离散化动作预测换成DiT,逼近π0(含DiT的实现)
近年来,配备视觉能力的机器人控制模型引起了广泛的兴趣,比如7-RT-1,8-RT-2-将7D动作分解为离散的token,并使用VLM PaLI-X [13]像语言token一样自回归地预测它们30-Openvla-采用和RT-2类似的方法,对动作进行tokenizing,并在Open-X-Embodiment数据集[48]上训练Prismatic VLM其中,大规模视觉-语言-动作(VLA)模型的发展[
2025-01-12 12:10:35
7253
原创 一文通透OpenVLA——在Prismatic VLM(SigLIP、DinoV2、Llama 2)的架构上:基于“下一个token预测技术”预测离散化动作
一个多月前,有朋友曾说,一个月内,π0 会开源来着,当时虽然觉得不太可能,但还是抱着期待可还是没开..没开源必然是有点遗憾,故这两天我一直在考虑、对比,看目前哪个vla最逼近π0,然后借鉴π0的思路,去改造该vla前两天又重点看了下openvla,和cogact,然后对此文增加了不少解读内容,且发现总之,各种vlm + 各种动作预测头/方法,会出来很多vla。
2025-01-11 22:25:54
20268
5
原创 iRe-VLA——RL微调VLA:先SFT、后在线RL,最后结合“离线演示和在线成功数据”对VLA做SFT(含GRAPE的详解)
过去的这两年,工作之余,我狂写大模型与具身的文章,加之具身大火,每周都有各种朋友通过CSDN私我帮忙:要么是做科研想复现,要么是工厂想做自动化生产线的智能升级,要么是想通过机械臂/人形解决各种业务场景问题让我感慨:二零一一年,因为算法,首次有「天下无人不识君」的感觉,过去这两年,因为大模型和具身机器人,再次有了这感觉具身的论文解读过很多之后,便会发现整个具身的技能图谱大概如下所示(建议按照从下至上的顺序看)其中,action head有基于LSTM的基于diffusion model的。
2024-12-31 00:02:11
11519
1
原创 Diffusion Transformer(DiT)——将扩散过程中的U-Net换成ViT:近频繁用于视频生成与机器人动作预测(含清华Prediction with Action详解)
本文最开始属于此文《视频生成Sora的全面解析:从AI绘画、ViT到ViViT、TECO、DiT、VDT、NaViT等》但考虑到DiT除了广泛应用于视频生成领域中,在机器人动作预测也被运用的越来越多,加之DiT确实是一个比较大的创新,影响力大,故独立成本文在ViT之前,图像领域基本是CNN的天下,包括扩散过程中的噪声估计器所用的U-net也是卷积架构,但随着ViT的横空出世,人们自然而然开始考虑这个噪声估计器可否用Transformer架构来代替2022年12月,William Peebles(
2024-12-29 00:20:05
22210
3
原创 YAY Robot——斯坦福和UC伯克利开源的:人类直接口头喊话从而实时纠正机器人行为(含FiLM详解)
复杂的机器人任务可能需要多个单独的基础动作的序列。例如,如图1所示将多个物品装入袋子中需要依次抓取每个物体,将其移动到袋口附近,然后插入解决此类多阶段任务的一个常用框架是通过分层抽象,其中高级策略指挥具体行为,然后由低级策略执行这些行为 [36,68,69,18]
2024-12-24 14:46:24
5068
1
原创 Meta发布的自监督ViT DINO的发展史:从DINO、DINOv2到通用视觉特征提取器DINOv3
前言之所以关注到DINOV2,原因在于我解读的多个具身机器人模型的视觉基座都用的它,比如不过,实话讲,DINO论文的可读性是真的不高,使得本次解读不易..总之,本文目前只是个初稿,后面还得花不少时间反复优化。
2024-12-21 23:49:35
20780
11
原创 一文速览mamba的各种变体与改进:从MoE-Mamba、Vision Mamba、VMamba、Jamba到Falcon Mamba
其实早在今年4月,我便在微博上说道:本月已经攒了好多篇博客待写,十之八九为项目需要,十之一二为课程需要今年快结束了,截止目前为止,前三篇都已写了,至于MOE模型也写了deepseek,但mamba的几个重要变体一直没来得及写,原因就太多了,比如直到近期,具身机器人发文的速度稍稍慢下来了(注意,只是稍稍),便有时间写一下之前计划已久的大模型相关的文章,包括本文要写的各种mamba变体或改进毕竟本文之前的mamba解读确实影响力大,加之基于mamba的变体或改进又层出不穷,故本文来了。
2024-12-07 23:57:06
14761
1
原创 一文通透vLLM与其核心技术PagedAttention:减少KV Cache碎片、提高GPU显存利用率(推理加速利器)
众所周知,运行GPT这样的大模型应用非常昂贵,需要大量的硬件加速器,如GPU「我司过去半年做了一系列大模型应用,比如基于大模型的论文审稿、翻译、修订、对话、idea提炼,对此深有感触根据最近的估算,处理一个LLM请求的成本可能是传统关键词查询的10倍[43]。鉴于这些高昂的成本,提高吞吐量——从而降低成本——变得尤为重要。
2024-12-03 23:46:53
12468
2
原创 机器人早期VLA大脑的发展史——从微调VLM起步:详解RoboFlamingo、Octo、TinyVLA
许多研究使用从机器人收集的大量轨迹数据集来训练策略这些工作主要集中在单一的embodiment上,而Octo则在跨多个体现组装的机器人数据集上训练策略,增加了训练数据集的有效规模,并允许对多种机器人设置进行微调最近,论文集中于扩展机器人策略的泛化能力。多项研究利用多样的非机器人数据或预训练的视觉-语言基础模型来提升策略对新场景和任务的泛化能力[86,103,96,16,38,11,84,36,4,37,7,3,46,15,23]
2024-12-01 23:51:14
18171
16
原创 斯坦福泡茶机器人DexCap源码解析:涵盖收集数据、处理数据、模型训练三大阶段
它可以捕捉颜色图像、深度图像、姿态数据以及手部关节数据,并将这些数据保存到指定的目录中首先,导入库"""示例用法"""import argparse # 用于解析命令行参数import copy # 用于复制对象import numpy as np # 用于数值计算import open3d as o3d # 用于3D数据处理import os # 用于操作系统相关功能。
2024-11-10 00:10:38
5990
1
原创 Diffusion Policy——斯坦福UMI所用的动作预测算法:基于扩散模型的扩散策略(从原理到其编码实现)
所谓扩散策略,是指将机器人的视觉运动策略表示为条件去噪扩散过程来生成机器人行为的新方法,如下图所示a)具有不同类型动作表示的显式策略(b)隐式策略学习以动作和观察为条件的能量函数,并优化能够最小化能量景观的动作c)通过“条件去噪扩散过程在机器人行动空间上生成行为”,即该扩散策略策略不直接输出一个动作,而是推断出「基于视觉观察的动作-评分梯度」,进行K次去噪迭代。
2024-11-09 21:53:57
27929
7
原创 英伟达HOVER——用于人形机器人的多功能全身控制器:整合不同的控制模式且实现彼此之间的无缝切换
人形机器人是一种多功能的形态,支持多种机器人任务和应用,包括双手操作[1–3]、双足行走[4–7]和灵活的全身控制[8–14]。尽管这些努力展示了令人印象深刻的成果,每个项目都根据其特定任务和场景使用了不同的全身控制公式。
2024-11-06 19:54:35
7895
3
原创 π0中的VLM PaliGemma 2:基于SigLIP-So400m和Gemma2,其内部通过线性投影层连接(含PaliGemma一代的简介)
PaliGemma 是一个开放的视觉语言模型(VLM),基于 SigLIP--So400m 视觉编码器和 Gemma-2B 语言模型其结合了PaLI视觉语言模型和Gemma语言模型家族的特点。
2024-11-05 10:29:19
10039
1
原创 RDT——清华开源的双臂机器人“扩散动作大模型”(基于DiT改造而成):先预训练后微调,支持语言、图像、动作多种输入
此外,在实践中,我们倾向于一次性预测一系列动作,即一个动作块,以促进时间一致性(Chi等,2023),并通过减少任务中的决策次数来缓解错误累积(Zhao等,2023)这可能导致分布外的动作,例如多个模式的算术平均值,这可能完全不可行(Pearce等,2023),相反,作者选择建模连续条件分布。幸运的是,对于作者的设置来说,这一缺点很小,因为。此外,值得强调的是,他们的目标是利用多机器人数据来增强模型在双手操作中的普适性,而不是开发用于各种机器人的跨实体模型。的维度比图像低得多,只需要最小的采样开销。
2024-11-02 00:31:03
22286
8
原创 字节GR2——在大规模视频数据集上预训练且机器人数据上微调,随后预测动作轨迹和视频(含GR1详解)
上个月的24年10.9日,我在朋友圈看到字节发了个机器人大模型GR2,立马去看了下其论文(当然了,本质是个技术报告)这次也是我头一次看paper,不看正文,而是直奔其References,看有没有我预想中的文献,说明咱看paper的能力相比去年强很多了那天之后,我就一直想解读这个GR2来着然,意外来了,如此文开头所说。
2024-11-01 19:20:34
7330
原创 HIL-SERL——结合“人类离线演示、在线策略数据、人工在线干预”的RL方法:直接真实环境中RL开训,可组装电脑主板和插拔USB
机器人强化学习任务可以通过一个来定义,其中是状态观测(例如,结合机器人的本体状态信息的图像)是动作(例如,期望的末端执行器扭转)是初始状态的分布,是依赖于系统动态的未知且可能是随机的转移概率而是奖励函数,编码任务最优策略是最大化奖励的累计期望值的策略,即,其中期望是通过关于初始状态分布、转换概率和策略在实践中,策略通常建模为由神经网络参数化的高斯分布为了实现机器人任务的强化学习算法,必须仔细选择合适的状态观察空间和动作空间。
2024-10-31 17:09:18
13117
12
原创 机器人领域中的scaling law:清华高阳团队通过复现斯坦福UMI——探讨数据规模化定律(含UMI的复现关键)
且在和丁老师沟通中,还聊到清华高阳团队也复现了UMI,不过他们是完全用的国外比较昂贵的硬件(Franka机械臂、WSG50夹爪),且即便如此,竟然也没达到UMI原始论文中的效果,至于原论文中的效果不好复现的原因,则众说纷纭了..此外,我还特地邀请了针对UMI做了改进工作的fastumi作者之一丁老师给大家在线分享,毕竟UMI本身有不少局限性,比如耦合性太强、原装硬件的成本太高(比如UR5e、WSG50夹爪)且不方便换成国产硬件、复杂的SLAM算法。至于高阳团队的复现UMI的工作对应的论文为《
2024-10-29 18:38:55
7856
2
原创 斯坦福通用人形策略iDP3——同一套策略控制各种机器人:改进3D扩散策略,不再依赖相机校准和点云分割
问题表述作者将人形操作任务表述为一个离散时间马尔可夫决策过程,由一个元组定义:,其中是状态空间,是动作空间,是转移概率,是奖励函数,是折扣因子,是初始状态分布在他们的背景下,S是捕捉机器人和物体状态的原始RGB-D观测空间,A是人形机器人运动指令的空间,R是稀疏奖励函数,当任务完成时返回1解决任务的目标是找到一个策略π,以最大化从µ中抽取的广泛初始配置在测试时的预期任务成功率那又什么叫做开放世界呢。
2024-10-23 17:25:32
12812
10
原创 基于人类视频的模仿学习与VLM推理规划:从DexMV、MimicPlay、SeeDo到人形OKAMI、Harmon(含R3M的详解)
在此文《》的1.1节开头有提到机器人收集训练数据一般有多种方式,比如Dexmv物理本体,有的翻译为embodiment38-Dexmv即embodiment-agnostic keypoint,49考虑到「从人类视频中学习」早已成为机器人的主流训练方法之一,故打算系统阐述以下这个课题,不然很多朋友可能只是理解其字面意思,但到底具体怎么个模仿学习,则不一定知其里,而通过本文系统的阐述,可以让大家更深刻的理解模仿学习背后更深的细节。
2024-10-20 22:57:24
10078
4
原创 一文总览OpenAI o1相关的技术:从CoT、Quiet-STaR、Self-Correct、Self-play RL、MCTS等到类o1模型rStar-Math
可能是去年写或讲的关于ChatGPT原理的文章和课程,影响力太大了导致自从OpenAI o1出来后,每过两天,就有朋友问,“校长 o1啥时候出解读或课程”,实在是各个大模型项目上的事情太多,加之近期一直在抠机器人(比如本博客内连发了五篇机器人相关的文章,再不刻意强插一下比如o1,真的很难停下来)但,今天又有朋友来问,故,准备并行开写o1了一开始,我主要是看的这几个资料但随着本文越写越深,挖出来的相关资料也越来越多,我会竭尽所能,确保本文具备以下两大特征。
2024-10-12 18:37:59
66299
5
原创 Exbody——从MDM、RobotMDM到全身运动控制策略Exbody:上半身模仿人体动捕数据,下半身RL训练
22年9月,来自TAU的研究者们通过此篇论文《》提出了运动扩散模型MDM,在该文中,作者通过在无分类器的方式下对CLIP进行条件化来实现文本到动作的转换,类似于文本到图像如下图所示「运动扩散模型(MDM)通过在给定文本提示的情况下生成多样化的动作,反映了文本到动作映射的多对多特性,其中,较深的颜色表示序列中的较晚帧,即最后生成的帧。
2024-10-11 23:25:20
7271
6
原创 H2O与OmniH2O——通过RGB摄像头或VR全身实时摇操:仿真RL中训练,然后再sim2real(含师生学习与策略蒸馏详解)
由于我司一直在针对各个工厂、公司、客户特定的业务场景,做解决方案或定制开发,所以针对每一个场景,我们都会反复考虑用什么样的机器人做定制开发于此,便不可避免的追踪国内外最前沿的机器人技术进展,本来准备在上一篇博客《VLM驱动机器狗——从UMI on Legs到Helpful DoggyBot:分别把机械臂装到机器狗背上、夹爪装到机器狗嘴里》之后,解读今天上午看到的字节刚发的机器人大模型GR2。
2024-10-09 23:02:56
13220
13
原创 VLM驱动机器狗——从UMI on Legs到Helpful DoggyBot:分别把机械臂装到机器狗背上、夹爪装到机器狗嘴里
今年十一7天假期期间,一半的时间都在改本博客内的上一篇文章《从Fast-UMI到Diff-Control:分别改进UMI的硬件及其所用的Diffusion policy(含ControlNet详解)》,改完之后,接下来计划要写的博客包括且不限于。然10.7日晚,又无意中看到了「UMI on Legs和Helpful DoggyBot」这两个工作,前者把UMI机械臂放到机器狗背上(适合我司之前去一个客户机房的场景),后者把夹爪放到机器狗嘴里。
2024-10-08 23:24:42
6977
原创 Fast-UMI——改进斯坦福UMI的硬件:用RealSense T265替代SLAM且实现机械臂的迁移与平替(含归类好的全部硬件清单)
24年9.28日下午,微信上的好友丁研究员和我说我当时(周六)和家人在李自健美术馆,故回复之:帅气,我晚上到家后看下我个人确实准备 这几天仔细研究下,毕竟我们之前也在基于umi/dexcap做二次开发,有很多契合点我深知这种感觉,因为当我司做出一个大模型应用或机器人解决方案,哪怕只是一篇博客时,都渴望和同行做各种深入交流而且正如技术合伙人姚博士所说,“fastumi数据采集方式的改进强,因为我们当时也考虑过t265,但确实是人手不足”
2024-10-01 15:32:54
10557
11
原创 ReKep——李飞飞团队提出的让机器人具备空间智能:基于VLM模型GPT-4o和关系关键点约束(含源码解析)
ReKep 的一个实例是一个函数,它将关键点数组(记作 k)映射到一个无界的成本,其中表示约束已满足函数实现为一个无状态的 Python 函数,包含对关键点进行的 NumPy [123] 操作,这些操作可能是非线性和非凸的本质上,ReKep 的一个实例编码了关键点之间的一种期望的空间关系,这些关键点可能属于机器人手臂、物体部件和其他代理然而,一个操作任务通常涉及多个空间关系,并且可能具有多个时间上相互依赖的阶段,每个阶段都包含不同的空间关系。
2024-09-18 23:48:37
12329
9
原创 MLA——一文通透DeepSeek V2中的多头潜在注意力MLA:改进MHA,从而压缩KV缓存,提高推理速度(含让任何LLM都能用上MLA的方法)
成就本文有以下三个因素校长最近开始搞deepseek了吗?刚看了论文,没搞懂MLA那块的cache是怎么算的,我总觉得他的效果应该类似MQA才对,但是反馈是挺好的目前团队项目上的事情太多,然后近期在写那个KAN确实还没来得及看这个deepseek,我近期看下而搞之前——近几天,会先写一下它的论文解读,故本文就来了且一如既往做到,对于几乎每一个主题,都做到本博客万千读者或七月学员所说的:“还是看校长的文章好理解”,如有任何问题或任何不懂的地方,可以随时留言/评论,我会找时间尽快回复。
2024-08-26 21:18:39
45892
24
原创 让AI写论文——全流程全自动的AI科学家:基于大模型提炼idea、写代码、做实验且最终写成论文
熟悉本博客或我司七月的知道,过去一年,在机器人解决方案之外,大模型应用开发团队一直专注通过大模型赋能科研行业,所以在做面向科研论文相关的翻译、审稿、对话、修订(包含语法纠错、润色)、idea提炼等诸多系统(),目前正在逐一上线七月官网8.14这一天,一关注我们的朋友黄总,发我一篇文章《首位AI科学家问世!已独立生成10篇学术论文,还顺手搞了AI审稿人》,并说:“看看你们审稿大模型有什么可以借鉴的”我仔细一看,原来是这篇论文。
2024-08-15 23:30:32
9686
1
原创 2024自动驾驶(多模态)大模型综述:从DriveGPT4、DriveMLM到DriveVLM、DriveMM
本文主要涉及以下4篇paper的解读(按发表的时间顺序排列)DriveGPT4: Interpretable End-to-end Autonomous Driving via Large Language ModelDriveMLM: Aligning Multi-Modal Large Language Models with Behavioral Planning States for Autonomous DrivingDriveLM: Driving with Graph Visual
2024-08-12 19:00:54
25453
20
原创 微调LLama 3.1——七月论文审稿GPT第5.5版:拿早期paper-review数据集微调LLama 3.1
对于llama3,我们之前已经做了针对llama3 早7数据微调后的测评后来,llama3.1出来后,考虑到性能高于llama3,所以项目组同事青睐、文弱上周做了llama3.1通过早7数据微调后的测评随后,青睐、文弱又分别做了最终,早7数据下,超gpt4 超的不容易;但早4数据下,超gpt4 则很轻松..个人心得是,首先,llama3.1确实是比llama3 更强悍,其次,现在微调一下超过GPT4,已经不是啥新闻了,我自己都疲了,🐶..
2024-08-09 17:13:13
7791
6
原创 SRT——基于模仿学习的手术机器人:来自约翰霍普金斯大学和斯坦福ALOHA团队
7.17,我司七月九周年司庆之际,我机器人方向的技术合伙人姚博士发我一篇文章,这篇文章提道:“约翰霍普金斯大学、斯坦福大学合作的手术机器人 Transformer(Surgical Robot Transformer ,SRT),通过端到端模仿学习实现手术任务自动化。在时间落地时,这个研究基于达芬奇机器人上,实现了自动化:打结、针头操作、软组织操作”姚博士当时评论道:他们的策略就是我july博客内介绍过的ACT和diffusion policy,说明只要数据集足够,很多功能都能实现。
2024-07-28 13:16:24
7348
6
原创 一文速览Llama 3.1——对其92页paper的全面细致解读:涵盖语言、视觉、语音的架构、原理
llama3 刚出来时,其长度只有8K对于包括我司在内的大模型开发者是个小小的缺憾,好在很快,在7.23日,Meta发布了Llama 3.1,长度终于达到了128K这个长度使得可以直接通过我司的paper-review数据集去微调了如此,便有了本文:解读下llama3.1的paper,结果一看92页,好在昨天我司上线了基于大模型的翻译系统,那先翻译一下 快速看下大概 然后慢慢抠。
2024-07-24 12:19:47
29289
8
原创 一文通透TTT:让RNN的隐藏层变成可学习的函数——继mamba之后也想超越Transformer
TTT出来有一段时间了,让我确定要写TTT解读的,是源于我司LLM论文100篇课程群里的一学员辰子说,“校长 最近的TTT考不考虑讲一下”故当时想着:解读完mamba2之后,则解读open-television、我司7方面review微调gemma2,再接下来是TTT、nature审稿微调、序列并行、Flash Attention3..如今虽然mamba2的解读还没完全修订完,但“open-television、我司7方面review微调gemma2”都解读的差不多了,故今天开写TTT。
2024-07-22 21:42:05
16048
4
原创 UC San Diego的三大机器人:AnyTeleop、Open-TeleVision、Bunny-VisionPro——从RGB相机到VR远程控制机器人
这篇论文的链接,我当时快速看了一遍,还是有价值的一个工作(其应该有受humanplus工作的其他),一直想做下解读来着,无奈过去一周一直在弄mamba2的解读,所以没来得及弄。码器捕捉图像和本体感觉标记的关系,Transformer解码器输出特定块大小的动作序列。手腕的姿态流式传输到服务器。服务器将人类姿态重新定向到机器人,并将关节位置目标。如下图所示,便是TeleVision的远程操作数据收集和学习设置。7.3日,我司大模型机器人(具身智能)线下营群里的一学员发了《左:我们的远程操作系统。
2024-07-12 23:11:20
14866
7
[第一部分]精选微软等公司数据结构+算法经典面试100题[1-40题]
2010-10-23
[第二部分]精选微软等公司结构+算法面试100题[41-60题]
2010-11-05
新鲜出炉:微软等数据结构+算法面试100题第81-100题[V0.1版最后20题]
2010-12-05
[汇总I]精选微软等数据结构+算法面试100题[第1-60题]
2010-11-12
数学建模10大算法详解+程序源码打包
2011-01-29
十三个经典算法研究PDF文档[带目录+标签]
2011-07-08
红黑树的c实现源码与教程
2011-01-03
[最新答案V0.4版]微软等数据结构+算法面试100题[第41-60题答案]
2011-01-04
结构之法 算法之道 第一期博文CHM文件集锦[版权所有,侵权必究]
2011-03-06
微软面试100题系列之高清完整版PDF文档[带目录+标签]by_July
2012-09-20
结构之法算法之道blog博文集锦第7期CHM文件
2012-07-29
读书会·北京第1期之DeepQA框架&Siri;架构PPT
2012-02-13
[最新整理公布][汇总II]微软等数据结构+算法面试100题[第1-80题]
2010-11-20
基于给定的文档生成倒排索引的全部源码
2012-01-10
最新十五个经典算法研究与总结之高清完整PDF文档[带目录+标签]by_July
2012-08-05
[开源分享]推荐一款界面超酷的Pocket PC 掌上电脑[源码下载]
2010-12-08
结构之法算法之道博文集锦最新第五期(July、10.31日制作)
2011-10-31
程序员编程艺术第一~三十七章集锦 高清完整PDF版
2013-12-10
程序员编程艺术第一 ~二十七章(教你如何编程)高清完整PDF版by_July
2012-04-25
[极品收藏]Windows 核心编程完整中文pdf版(上)
2010-10-25
[极品收藏]Windows 核心编程完整中文pdf版(中)
2010-10-25
[极品收藏]Windows 核心编程完整中文pdf版(下)
2010-10-25
[答案V0.1版]精选微软数据结构+算法面试100题[前25题]
2010-10-30
[总结]各大内部排序算法性能比较+程序实现
2010-11-01
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅