Caesar Zou-CSDN博客

原创 GR00T N1.6 : An Improved Open Foundation Model for Generalist Humanoid Robots

更深的视觉骨干 + 相对动作空间 + 强正则化的后训练，是当前解决人形机器人长程任务（Long-horizon tasks）的最优解。虽然多任务泛化仍然是一个持续的挑战，但 N1.6 已经让我们看到了人形机器人走进实验室外、处理复杂现实工作的曙光。

2025-12-19 15:39:20 1120

原创 Cannot allocate memory——训练时视频解码为什么会内存越跑越大

这篇文章记录一个在 VLA 视频数据训练里非常常见、也非常折磨人的问题：训练跑着跑着内存持续增长，最后随机触发 av.error.MemoryError: [Errno 12] Cannot allocate memory、或者某个 rank 先挂掉引发 DDP 的连锁退出。更坑的是：明明del了对象、甚至加了，内存还是不降。

2025-12-19 10:57:31 948

原创 PyTorch 分布式训练

方案优点缺点适用场景单卡最简单、最稳定速度慢小数据集、调试代码改动小效率低、兼容性问题简单模型、快速验证DDP效率高、稳定代码改动大生产环境推荐。

2025-11-28 13:32:59 684

原创深度学习的一些思考 — Diffusion、本质训练方式、以及神经网络底层结构

结果：即便从随机噪声出发，Diffusion 也能生成符合物理规律的动作轨迹。这时的 x_t 混乱不堪，甚至有负值，完全不像一个合理的动作序列。只要模型能学会预测噪声，就能在推理时把噪声一点点“擦掉”。每去一次噪，x_t 就更接近真实轨迹，最终恢复 x₀。多次堆叠后，模型就能逼近非常复杂的函数、语义和规律。模型做的事情不是“理解”，而是执行纯数学公式。即权重 w 轻微变化时，损失 L 的变化速度。训练时，我们不会直接把 x₀ 喂给模型，而是。这是连贯、平滑、符合物理规律的轨迹。训练的目标，就是让模型学会。

2025-11-25 17:54:26 257

原创 ROS 2 Jazzy 在 Ubuntu 24.04 上的完整安装教程

Ubuntu 24.04 是 2024 年发布的 LTS 长期支持版本，而它本文记录在 Ubuntu 24.04 / Jetson 平台上成功安装的完整过程，包括清理由于安装 ROS1 残留的错误源。

2025-11-25 15:32:01 527

原创 π0.6 : a VLA That Learns From Experience

π0.6∗。

2025-11-20 16:58:12 826

原创 π0: A Vision-Language-Action Flow Model forGeneral Robot Control 论文介绍&代码流程解析

本文基于个人理解如有误欢迎大家讨论指正。

2025-11-20 10:18:01 958

原创如何查看cursor用量

怎么看cursor还能使用多少呢，看了网上不少攻略，下载不少插件发现都没用，原来设置里就有。

2025-10-29 18:20:20 1732 1

原创解决 Codex 在 WSL/SSH/VSCODE 登录时报 “Token exchange failed: 403 Forbidden” 问题

在使用具体来说就是你能打开登录界面，但是登录后直接黑屏连接不上。这其实是因为 Codex CLI 在登录时会启动一个本地的 OAuth 回调服务器，用于接收浏览器的登录回调。但在 WSL 环境中，Windows 与 Linux 之间的端口转发机制有时会出问题，导致认证流程中断。

2025-10-27 10:22:16 5836 3

原创 NVIDIA Jetson Thor 配置 Isaac-GR00T-N1.5

具体来说我们尝试了官方的教程，但是在docker或者conda安装时遇到了pytorch3d和decord的问题，这俩可以从官方docker中拷贝出去到自己环境里。能够完美适配NVIDIA Jetson Thor。

2025-10-24 14:05:04 194

原创 N1.5（Isaac-GR00T）在NVIDIA Jetson Thor以及Jetson系列机器上环境配置问题。主要是aarch64架构pytorch3d无法安装

首先我们把pyproject.toml里的pytorch3d注释掉，先安装其他的包。这里第四步会出问题，注意这里的[base]可以替换成你的Jetson型号。3.关闭 pip 构建隔离以复用我们环境里的 setuptools 等。2.关键：ARM 上常要显式启用 CUDA 并指定算力。1.需要克隆 PyTorch3D 源码。

2025-10-23 10:20:48 152

原创 ssh远程连接服务器，vscode不显示claude

本文专门解决一种特殊情况：在本地和服务器上单独打开都可以显示claude如图所示，但是ssh远程连接后显示不出来，如下图所示。然后再设置一下Proxy。然后重启就可以正常使用。

2025-10-23 09:54:54 418 2

原创 PixelShuffle原理

有些人会误以为 PixelShuffle 把多个通道合并成一个图像，从而“变成灰色”。常见的上采样方法（如双线性插值、转置卷积）容易导致模糊或棋盘格伪影。通道中的每一组 r² 个值，被映射成输出图中的一个 r×r 小块。PixelShuffle 不做卷积、不做插值，只做。将通道中的 r×r 子像素重新排列到空间坐标中。传统卷积输出的特征图往往是「空间小、通道多」。这些“额外的通道”中存放的就是未来要还原的。那卷积输出通道就是 3×4 = 12。如果目标输出是 3 通道（RGB），

2025-10-22 14:00:19 821

原创 ubuntu 安装websocat

websocat是一个非常轻量级且功能强大的 WebSocket 工具，适用于测试、调试和进行 WebSocket 通信。通过安装并使用websocat，你可以快速与 WebSocket 服务器建立连接，并进行双向数据传输。

2025-10-14 14:07:27 299

原创深度学习12 Reinforcement Learning with Human Feedback

现有的RLHF方法可能难以扩展到更大的应用范围，研究如“RLAIF vs. RLHF: Scaling Reinforcement Learning from Human Feedback with AI Feedback”提供了可能的解决途径。为了降低成本，可能会采取可疑的数据收集实践，如利用低薪劳动力识别有毒内容，或通过免费源获取数据，这可能导致偏见或低质量的数据。微调目标：使用RL微调的目的是通过奖励模型的指导，精细调整模型的输出，使其更符合用户的期待和偏好。

2025-08-27 20:34:49 1165

原创深度学习11 Deep Reinforcement Learning

这种学习方式模仿了人类和动物的学习过程 - 通过试错来学习最优策略不同于监督学习,强化学习没有明确的标签,而是通过与环境交互来学习面临探索-利用权衡问题:需要在探索新动作和利用已知好动作之间取得平衡强化学习常用马尔可夫决策过程(MDP)框架来学习最优策略马尔可夫过程:环境总是处于若干可能状态st之一状态转移概率 Pr(st+1|st描述了状态之间的变化关系马尔可夫性质意味着未来状态只依赖于当前状态,与历史路径无关。

2025-08-27 20:26:47 1156

原创 ⑩Diffusion Models

简单来说，当我们有两个变量的联合概率 P(x,z) 时，如果我们想知道单独一个变量 x 的概率，就需要对另一个变量 z 进行积分（或者求和，如果是离散变量），这个过程就是边际化。x t在不同的时间步 t 上的表示其实可以看作是数据的不同层次的潜在表示。在扩散模型（如扩散模型中的“加噪声”过程）中，这个逐渐扩散的过程使得数据的分布逐渐接近一个标准正态分布。其中，εt是从标准正态分布中采样的噪声，βt∈[0,1]是定义噪声步长的系数 noise schedule（它决定了在每一步中，向数据添加噪声的程度。

2025-03-02 12:24:21 1064

原创 Kaggle如何使用model

kaggle上次model后会自动解压，再load的时候就会出现问题，这时可以把他重新压缩为zip，然后从output里读取。

2024-12-01 21:15:58 344

原创深度学习⑨GANs

GANs的提出引起了广泛的关注,因为它提供了一种新的、创新的方法来生成逼真的数据。判别模型的目标是学习给定输入X的情况下,输出Y的条件概率，即x存在情况下，y的概率。：不同于传统GANs，StyleGAN允许我们在不同的生成层次上控制图像的样式，这意味着我们可以分别控制大尺度的特征（如脸型、姿态）和小尺度的细节（如皮肤纹理）。在博弈论中，当每个玩家的策略对于其他玩家的策略都是最优的时，就达成了纳什均衡。通过学习数据的联合分布P(X,Y)或边缘分布P(X),这些模型能够生成新的、看起来真实的数据样本。

2024-11-08 21:38:20 836

原创 IEEE格式参考和指导

IEEE格式是一种广泛用于工程、技术和计算机科学领域的引用和参考文献格式。IEEE格式的目的是提供一种统一、清晰的方式来引用和列出参考文献，使读者能够轻松找到和验证引用的源材料。6. 使用方括号编号：在正文中引用时使用方括号中的数字，如[1]。5. 出版信息：包括卷号、期号（如果有）、页码和出版年份。4. 会议论文：使用"in"引入会议名称，会议名称斜体。2. 文章标题：使用引号，只有第一个词和专有名词大写。8. 标点符号：每个元素之间使用逗号，句号结尾。3. 期刊名称：斜体，主要单词首字母大写。

2024-09-06 22:01:16 2249

原创深度学习⑧Meta-Learning Introduction

在持续学习中，模型会不断接收到新的任务或数据，而不希望在学习新任务的过程中遗忘旧任务。于是你的大脑（这里相当于元优化器）会根据之前做汤的经验，给自己一些建议（比如，调料的比例，控制好火候），让你能够在最短的时间内学会做别的汤。扩展数据图展示了系统化组合任务中的一些指令和组合规则，说明了如何通过已知组件生成新任务的指令，以及神经网络是如何通过这些指令完成任务的。框架的关键在于：使用分类器模型生成的重要性得分作为元优化器的输入，元优化器基于这些得分和任务特定的向量表示来预测模型的权重更新。

2024-09-05 12:01:45 1916

原创 ⑦Multitask Learning Introduction 多任务学习

这个矩阵虽然是 3x3 的，但它的秩（rank）为 1，因为所有的列都可以由一个向量（即 [1,2,3][1, 2, 3][1,2,3]）通过线性组合得到。即有一组任务，以及共同观察的标注实例每个任务 D(t)都有对应的输入数据和标注数据，分别从概率分布 P(X(t))和 P(Y(t))中抽取。传统的聚类算法通常在数据层面进行操作，而任务聚类则是在任务之间寻找相似性，将相关的任务分为不同的组，目的是在组内共享信息，提高学习效率。在某些应用中，任务之间的关系可能是预先已知的或可以假设的。

2024-09-04 11:50:12 1050

原创 ⑥Continual Learning Biological Underpinnings 持续学习的生物学基础

在人工智能中，这一机制可以启发多模态学习系统的设计，使模型能够整合来自不同类型数据的信息，从而增强理解能力。优化模型的资源利用和可持续性：在大规模语言模型的持续预训练中，可以借鉴生物系统中的资源效率机制，通过减少重复计算和高效使用存储资源，提升模型的可持续性。神经再生有助于学习和记忆的形成，特别是在面对新的挑战或环境变化时，通过生成新神经元，大脑可以更好地适应和学习新信息。在涉及伦理决策的应用中，如自动驾驶汽车或医疗决策支持系统，是否应该引入多方参与的伦理审查和讨论，确保系统的决策符合广泛接受的道德准则。

2024-09-03 19:18:30 1203

原创深度学习⑤Continual Learning Introduction

，避免对旧任务的破坏，也就是不依赖于更新最后一层的权重，而是使用示例样本的特征均值进行分类即使新任务的学习导致表示变化,只要示例样本的特征均值保持一致,分类性能就不会显着下降。

2024-08-28 14:59:34 1370

原创深度学习④Deep Learning Theory:Generalization

L1 范数定义为一个向量所有元素的绝对值之和。对于向量 w 来说，L1 范数表示为：在机器学习中，𝐿1正则化的目的是通过最小化这个范数来引导模型选择一个稀疏解，即一个尽可能多的元素为零的解。这在特征选择和防止过拟合中非常有用。可以将 𝐿1正则化想象成一种机制，它迫使模型尽量少地使用特征。通过限制权重的绝对值和，模型倾向于只保留对结果影响最大的少数特征，而将其他特征的权重压缩为零。这就类似于我们在整理东西时，尽量只保留最重要的东西，把不重要的尽量丢掉。通过正则化实现泛化——边界最

2024-08-27 12:47:31 985

原创深度学习③：Deep Learning Theory I

这是一个非常重要的结果，因为它解决了高维空间中的“维度灾难”问题，表明了在某些情况下，浅层神经网络的逼近能力非常强大，足以应对复杂的高维数据。通用近似定理告诉我们，神经网络可以逼近任意的连续函数，但这并不意味着所有函数都能被“简洁地”逼近，也不一定适用于高维度的数据（即维度 d 可能影响网络的逼近能力）。泛化误差包括了模型在训练数据上的表现和在未见过的数据上的表现之间的差异。PS：插值是一种构造方法，通过一组已知的离散点，构造出一个函数，使得这个函数在这些点上通过，通常用于在这些点之间预测或估计函数的值。

2024-08-17 22:52:40 1163

原创 Deep Learning Basics (Recap2)

在训练递归神经网络（RNN）时，长时间步的梯度会“消失”，这是因为在反向传播过程中，梯度是通过链式法则逐层传递的。更新门决定了输入信息和前一状态的保留程度，重置门控制了如何将当前输入与前一状态相结合，以更新当前状态。通过解决深度神经网络的退化问题（这不是过拟合问题，而是由于梯度消失或梯度爆炸导致的训练困难），极大地推动了深度学习的发展。虽然看一看将图片看作值向量，例如之前的MNIST数据集，但是对于较大的图像，需要展平为超大的向量，难以处理。”指的是输入序列中较早的信息如何影响网络之后的状态。

2024-08-06 11:29:00 674

原创 kaggle如何白嫖gpu并运行自己的python文件

这个很简单，只要创建一个自己的code，具体就是create-code-+new notebook就可以然后点击三个小点选择accelerator或者右边notebook option也可以选择注意：要注册验证手机号才能用，在主页头像点进去的个人账号这个地方里面验证，如果还是用不了可以尝试退出登录。

2024-08-03 16:35:41 2256 3

原创 Deep Learning① 回顾

好的问题定义能够明确模型的目标，好的数据能够提供足够的信息来训练模型，而强大的计算能力则能够支持大规模数据的处理和复杂模型的训练。近年来，数据的爆炸性增长、硬件（如GPU和TPU）的性能提升、活跃的研究社区和开源工具的涌现，以及资本市场对AI的巨大投入，使得深度学习在许多领域取得了突破性进展。比如如果用sigmoid做激活函数，它在0周围是近似线性的，如果我们的参数都初始化为0附近，那么可能数据经过神经元之后，大部分都落在线性区，那么我激活函数引入非线性的作用将被削减。

2024-08-01 22:02:50 917

原创 NLP②语言学介绍

由于结构和训练选择，神经语言模型只能学习固定深度的函数链（固定神经网络层数，局部最优，表达能力有限无法学习复杂数据），这限制了它们在处理某些自然语言现象时的能力。语言学提供的工具，这些工具可以用来描述和分析语言。解析是识别句子的句法结构的过程，通过递归定义的名词短语（NP）和动词短语（VP），给句子的每个成分分配意义。也就是说如果能自动学习到语言中的复杂模式和关系，就不需要用到前面那些显式定义的规则或标签，这种方法可以大大提高自然语言处理的效果，因为它能够处理更复杂的语言现象，并在许多下游任务中表现出色。

2024-07-26 16:45:08 1030

原创 [13] recap:Transfer Learning in NLP

Vision Transformer (ViT) 是一种基于 Transformer 架构的计算机视觉模型，通过将图像划分为固定大小的 patch，然后对每个 patch 进行线性嵌入，并添加位置嵌入，最终将这些向量序列输入到标准的 Transformer 编码器中，生成最终的图像表示。这种方法有助于处理罕见词和拼写错误的词。NLP中的应用：例如，一个模型可能在大规模文本语料库上进行预训练，任务包括预测句子中的缺失词（掩码语言模型）、预测序列中的下一个词（语言模型）或预测两个句子是否连续（下一句预测）。

2024-07-26 01:33:04 847

原创 NLP①概论

计数的发展是一个重要的例子，此外还有农业和导航等应用。这些发展不仅促进了抽象思维的进步，也推动了修辞学和法律等领域的发展，使得群体思考和规划成为可能，并实现了知识的指数级传播。通过这些技术，计算语言学使得自然语言处理（NLP）系统能够有效地处理大量的文本和语音数据，从而实现信息提取、翻译、问答系统、对话系统等多种应用。例如，如果我们定义一个形式语言只包含所有以 "a" 开头的字符串，那么对于Σ = {a, b}，这个语言的字符串可能包括 "a", "aa", "ab", "aaa" 等。

2024-07-22 19:45:54 852 1

这是一个基于命令行的猜数字游戏

这是一个基于命令行的猜数字游戏。程序会生成一个0到100之间的随机数，玩家需要通过输入数字进行猜测，直到猜对为止。程序还会记录玩家的游戏次数、最少猜中轮数和总猜测轮数，并在每次游戏结束后更新这些记录。

2024-07-22

COMSCI 380 笔记以及习题

COMSCI 380 笔记以及习题,基于奥克兰大学COMSCI 380课程内容编写主要包含了一些R语言编程的代码示例和说明，涵盖了以下几个方面的内容: 1.基本函数和算法实现: Newton法求平方根字符串反转向量处理等 2.数据结构操作: 矩阵和数组的创建与操作数据框的使用因子(factor)的创建与应用 3.图形绘制: 基本绘图函数的使用(plot, lines等) 多子图布局自定义图形参数 4.数据处理与分析: apply系列函数的使用和比较数据分组和汇总文件读取与文本处理 5.正则表达式: 字符串匹配和替换文本数据提取 6.函数编程: 自定义函数的编写函数应用于数据处理文档按章节组织,包含了大量代码示例,同时对一些关键概念和函数用法进行了解释说明。这些内容覆盖了R语言编程的多个重要方面,适合用作R语言学习和参考资料。

2024-07-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人