进一寸有一寸的欢喜

如果用10年以上的时间坚持学习和分享某一领域，将会是怎么样喃？ “一五计划":2018.06 ~2023.07 : 初步实现了在CV领域每月一篇技术总结。 “二五计划” (2023.07 ~2028.08)：计划每周一篇博客，在小的领域出一个超过20篇的

原创【论文目录】2013-2024年AI图像生成技术30篇+经典论文—— 图像生成Diffusion模型演化进程——扩散or自回归？

从2013-2024 图像生成，文生图经典论文目录

2025-01-20 16:52:51 2626 2

原创【综述+LLMs+中文图书】国内团队大语言模型综述（截止2024.02）——A Survey of Large Language Models

大语言模型使用无标注语料库进行预训练，当模型大小达到一定数量，出现智能涌现，能够进行小模型不具备的能力：下文学习，在未经过特定任务微调的情况下能够理解并响应复杂指令**；以及对新任务的适应性，即基于给定的输入示例就能够推断出相应的输出模式

2024-03-25 18:11:14 3041

原创【论文综述+多模态】腾讯发布的多模态大语言模型（MM-LLM）综述(2024.02)

多模态大语言模型：Multimodal Large Language ModelsMM-LLM =预训练单模态模型（含LLMs） + 微调对齐所有模态 + 输出调整MM-LLMs 利用现成的预训练单模态基础模型，特别是强大的大型语言模型（LLMs），作为认知核心，赋予各种多模态任务能力。LLMs 提供了稳健的语言生成、zero-shot 迁移能力和上下文学习（ICL）等可取特性在这一领域中，主要关注点是通过多模态预训练（MM PT, Pre-Training）+ 多模态指令调整。

2024-02-29 15:43:23 7836

原创【TWIST2】 PICO重映射G1在ubuntu 22.04下环境配置

本文介绍了TWIST2/GMR运动重映射系统的环境配置步骤，主要包括：1) 安装Miniconda3并创建Python 3.10环境；2) 克隆安装GMR运动重定向核心库及其依赖；3) 配置Redis服务器；4) 安装XRobot PICO SDK（包含PC端服务和Python绑定）；5) PICO头显端安装Unity客户端App的详细流程。配置完成后，用户可通过局域网连接PC和PICO设备，运行teleop.sh脚本实现全身动作捕捉与重定向功能。

2026-06-10 10:37:08 224

原创【办公】 Windows 电脑卸载自带迈克菲McAfee（使用MCPR 工具）

摘要：卸载迈克菲（McAfee）的官方推荐方法是使用专用清理工具MCPR（需官网下载），适用于预装试用版或常规卸载失败的情况。工具通过终止服务、删除文件及注册表项彻底清理，需输入验证码并以管理员身份运行。若遇权限问题可能需重复操作。

2026-06-06 17:45:22 251

原创【ROS2+深度相机】Orbbec相机时图像传输延迟显著（DDS数据分发服务配置）

本文档针对Orbbec相机在ROS2中使用FastDDS时出现的图像传输延迟问题，提供了系统参数和DDS配置的优化方案。通过调整Linux内核IP分片处理时间（ipfrag_time）、内存阈值（ipfrag_high_thresh）及网络缓冲区大小（rmem/wmem_max），有效提升大容量数据传输效率。同时给出FastDDS的XML配置文件模板，包含UDP传输参数、异步发布模式、共享内存优化等关键设置，并配合QoS策略（BestEffort/Reliable）适应不同数据流需求。文末还解释了DDS核心

2026-06-05 18:37:57 302

原创【全身VLA】宇树 WVLA 2.0 如何完成一场连续会议室整理任务（基于双目、腕部相机视觉引导的全身VLA）

B站宇树科技5月25日发布G1人形机器人搭载WVLA2.0具身大模型，展示会议室自主整理能力。该机器人在干扰环境下独立完成7项任务：归置白板笔、遥控器；清理纸巾、矿泉水瓶；整理宣传册；调整椅子位置，全程无需远程操控，即使被中途打断仍能继续执行。视频凸显了机器人在复杂场景下的环境感知、任务规划和抗干扰能力。

2026-05-26 10:19:38 440

原创【SMPL-X】AMASS动捕数据集与SMPL格式概述

AMASS是一个整合了多个动捕数据集的统一集合，包含15个子数据集，总计11265个动作，时长2420分钟。核心子集包括CMU（通用动作）、BMLrub（高精度动作）和KIT（动作+语义），涵盖行走、交互、舞蹈等类型。数据标注采用SMPL系列人体模型（G表示分性别，N表示中性）。常用组合为CMU+KIT+BMLrub（通用动作），HDM05+Transitions（稳定性增强），TCD Hands（精细操作）。该数据集适用于人体运动分析、动作生成等研究。

2026-04-03 17:47:51 675

原创【 AI 编程】Claude Code / Codex / Gemini CLI 全方位辅助工具

CC-Switch是一款管理AI编程工具(Claude/Codex/Gemini等)的桌面应用，提供可视化界面统一管理配置、供应商切换和扩展功能。安装需下载MSI安装包，配置Node.js环境并安装对应CLI工具(npm全局安装)。使用时可选择供应商API密钥，通过命令行调用工具(如codex)进行AI编程交互，支持模型选择和文件生成操作。配套教程链接提供详细配置指南，适合开发者统一管理多AI工具的工作流。

2026-03-31 23:46:28 826

原创【论文+开源】 2505.TWIST:基于光捕的实时全身遥操

TWIST是一种实时全身远程操控系统，通过动作捕捉和强化学习实现人形机器人对复杂人体动作的精确模仿。

2026-02-27 18:21:16 705

原创【论文+VLA】2601.蚂蚁灵波开源LingBot-VLA能拿透明玻璃杯（ LingBot-Depth感知增强）

本文介绍了一种实用的VLA基础模型LingBot-VLA，基于9种不同结构的双臂机器人配置，利用约2万小时真实世界数据开发。该模型通过大规模跨形态预训练数据，学习通用行为策略。研究验证了"多机器人形态预训练数据规模定律"，表明数据规模对模型性能具有显著影响。项目数据来源于多种机器人平台，包括AgiBot G1、AgileX等不同自由度配置，涵盖操纵、抓取等复合任务场景。实验结果表明，该模型在深度感知等任务上表现优异。

2026-01-31 23:49:10 642

原创【ROS2+深度相机】奥比中光Gemini 335L的简单使用

本文介绍了Orbbec Gemini 330系列相机的安装与ROS2环境配置方法。主要内容包括：1）下载安装Orbbec SDK可视化工具；2）搭建ROS2工作空间并获取OrbbecSDK_ROS2源码；3）安装依赖项并进行编译；4）配置udev规则确保相机访问权限；5）启动相机节点并查看发布的话题信息。文章提供了完整的命令行操作流程，并包含订阅相机数据的Python示例代码，帮助用户快速实现Orbbec相机在ROS2环境下的图像采集与可视化。

2025-12-30 17:24:36 1415 1

原创【ROS2+深度相机】在Ubuntu安装realsense-ros

本文介绍了在ROS 2环境中安装和使用Intel RealSense相机的完整流程。主要内容包括三个步骤：1)安装ROS 2系统；2)安装RealSense SDK 2.0并验证；3)安装ROS Wrapper并启动相机节点。文档提供了详细的安装命令，包括一键安装脚本、SDK注册和内核驱动安装等。还介绍了使用ros2 run和ros2 launch两种方式启动相机节点的方法，以及修改参数和命名空间的示例。最后列出了相机节点发布的主要ROS topic信息，为开发者提供了完整的RealSense相机在ROS

2025-11-04 18:41:41 1291

原创【LeRobot v0.4.0】多GPU训练，可扩展的Datasets v3.0，支持更多VLA（PI0.5和GR00T N1.5），增加了对 LIBERO 和 Meta-World仿真

发布时间：2025.10.25。

2025-10-31 17:56:18 1821

原创【Figure AI】一个 Helix 网络模型实现精细操作和导航命令（直接从人类第一视角视频到机器人的迁移）

要让机器人在家庭环境中达到人类水平的智能，需要这些机器人能从大规模的现实世界中学习。今天，我们宣布在HelixProject Go-Big：互联网规模的拟人预训练。Figure 正在构建世界上最大、最多样化的拟人机器人预训练数据集，。零样本人类视频 → 机器人迁移。Helix 已经达成一个新的学习里程碑：仅通过以第一视角拍摄的人类视频训练，Figure 的机器人现在能够从仅通过以第一视角拍摄的人类视频训练，Figure 的机器人现在能够从“去冰箱”这样的自然语言命令出发，在杂乱的真实环境中导航

2025-09-29 11:04:59 1051

原创【论文】2508.让通用人形机器人打乒乓 _HITTER: A HumanoId Table TEnnis Robot via Hierarchical Planning and Learning

人形机器人在行走和整体控制方面（）最近取得了令人瞩目的进展，但在那些需要与动态环境进行快速交互的任务中仍受限。乒乓球正是此类挑战的典型例子：球速超过 5 m/s，玩家必须在亚秒级反应时间内感知、预测（predict）并行动（act），这既需要敏捷性也要精准。为了解决这一问题，我们提出一个分层框架来实现人形机器人打乒乓：集成了用于球轨迹预测。

2025-08-31 22:30:47 1341

原创【机器人+相机通讯】宇树科技相机通信

相机与机器人通信

2025-07-31 22:19:34 850

原创【数据采集+人形机器人】使用 Apple Vision Pro 对宇树（Unitree）G1 和 H1 人形机器人进行全身的遥操作控制

北京银河通用机器人，开源了基于 Apple Vision Pro ，针对下半身控制，我们的方法允许使用者通过一对摇杆控制器来操控人形机器人行走或改变身体姿态。而上半身控制方面，机器人手部动作是通过逆向运动学算法，从VR设备捕捉到的人手位姿数据计算得出的。

2025-06-11 10:22:37 1921

原创【ROS2】核心概念8——参数设置（Parameters）

ros2节点（node）参数设置（Parameters）

2025-06-08 19:30:38 1053

原创【论文+硬件】HOMIE：定制外骨骼、手套和脚踏座舱低成本操控人形机器人+强化学习自主下蹲抓取物体框架

通过结合强化学习策略与低成本“同构外骨骼”硬件，让单一操作者能够更稳定、快速且精准地控制人形机器人进行步行、下蹲、抓取、搬运等动作

2025-06-06 10:19:30 1405

原创【ROS2】核心概念6——通信接口语法（Interfaces）+ 信息发布实战

ROS 2使用简化的描述语言，即接口定义语言（ interface definition language，IDL）来描述这些接口。话题（.msg），服务（.srv），动作（.action）

2025-05-18 23:27:33 1176

原创【ROS2】虚拟机使用fishros脚本一键安装humble

在windows上安装虚拟机+ubuntu22.04

2025-05-18 19:58:15 1108

原创【ROS2】核心概念5——服务（service）

话题和服务是ROS中最为常用的两种数据通信方法，话题（topic）适合传感器、控制指令等周期性、单向传输的数据服务（service）适合一问一答，同步性要求更高，比如获取机器视觉识别到的目标位置

2025-05-14 12:51:13 1313

原创【ROS2】核心概念4——话题（node）

ROS2的Topic，节点间异步传递数据的“桥梁”，基于发布/订阅模型（如传感器数据流）。

2025-05-09 11:42:11 1353

原创【论文+VLA】2505.GraspVLA——基于十亿级合成动作数据预训练的抓取基础模型(即将开源)

GraspVLA，一个完全基于合成数据预训练的抓取基础模型（基于Franka机械臂和固定视角配置），旨在通过大规模合成数据解决真实数据不足的问题，并实现开放词汇的抓取泛化。

2025-05-08 15:12:33 2521

原创【ROS2】核心概念3——节点（node）

节点:机器人的工作细胞。执行具体任多的进程。独立运行的可执行文件。可使用不同的给程语言。可分布式运行在不同主机。通过节点名称进行管理

2025-05-07 15:12:41 1297

原创【MuJoCo仿真】开源SO100机械臂导入到仿真环境

so100导入到仿真环境，方便后续操作和仿真

2025-04-29 18:34:44 2777

原创【仿真】Ubuntu 22.04 安装MuJoCo 3.3.2

MuJoCo ： Multi-Joint dynamics with Contact 表示：接触的多关节动力学。是一种免费的开源物理引擎，旨在促进机器人技术 robotics，生物力学 biomechanics，图形和动画以及需要快速准确模拟的其他领域的研发

2025-04-29 17:56:59 1696

原创【ROS2】核心概念2——功能包(package)

ros2 pkg create 是ROS2中用于快速生成功能包（Package）的命令工具，通过参数配置可自动化生成包结构、元数据（package.xml）和构建规则（CMakeLists.txt），大幅提升开发效率。

2025-04-29 14:31:59 1290

原创【ROS2 】核心概念1——工作空间（workspace）

在ROS机器人开发中，我们针对机器人某些功能进行代码开始时，各种编写的代码、参数、脚本等文件，也需要放置在某一个文件夹里进行管理，这个文件夹在ROS系统中就叫做工作空间。

2025-04-28 12:52:20 1334

原创【ROS2】ROS开发环境配置——vscode和git

ROS机器人开发肯定离不开代码编写，基于git和vscode查看、编写、编译

2025-04-27 10:13:19 821

原创【ROS2】机器人操作系统安装到Ubuntu22.04简介（手动）

ROS2: 第二代机器人操作系统，2022年5月底，迎来了ROS2第一个长期支持版——ROS2 Humble。多机器人系统\跨平台\实时性

2025-04-23 14:33:57 781

原创【Lerobot】加载本地数据LeRobotDataset数据、读取并解析parquet

so100采集数据后，数据格式解析

2025-04-16 16:13:49 3084 1

原创【lerobot】so100硬件简介——飞特Servo + 舵机驱动板模块

SO100舵机STS3215与舵机驱动板特性了解

2025-04-16 11:14:23 2441

原创【lerobot】3-开源SO-100 主从臂的舵机位置校正、遥控操作（ubuntu系统）

lerobot so-100装配完毕如何进行遥操作。

2025-04-14 18:20:55 1478

原创【机器人+VLA】25.03 GR00T N1:英伟达第一个开源的通用的人形机器人VLA模型

NVIDIA Isaac GR00T N1：全球首个开源且完全可定制的基础模型，该模型接受包括语言和图像在内的多模态输入，以在不同的环境中执行操作任务，可赋能通用人形机器人实现推理及各项技能。

2025-04-07 20:22:13 1781

原创【机器人+硬件】Zeroth Bot 美国开源最简人形机器人—— 负担得起（￥2535）端到端（SIM2REAL，RL）3D打印的（包括硬件、SDK、 sim环境）基于视觉、强化学习走路、以及语音

Zeroth-01是一种开源端到端类人形机器人，起价为350美元，具有视觉，基于RL的步行和语音。特点带有开源机器人和仿真环境的SIM2REAL转移。深度RL的端到端控制。VLA：可推广视觉语言行动策略。负担能力：我们通过开源硬件和软件使机器人更加负担得起。

2025-03-11 11:22:37 2552

原创【机器人+VLA】2406.OpenVLA: 开源的视觉–语言–动作模型用于训练通才机器人，An Open-Source Vision-Language-Action Model

OpenVLA 是一个开源的视觉–语言–动作模型，拥有 70亿参数（7B），通过在 97 万机器人示范片段(episodes)上微调（数据来源 Open X-Embodiment），为通才（generalist）机器人操作策略 (manipulation policies) 设置了新的技术水平

2025-03-06 10:10:14 3732

原创【机器人+VLA】2410.Pi0_一种（开源）语言视觉控制的通用机器人——A Vision-Language-Action Flow Model for General Robot Control

介绍了 Physical Intelligence 公司开发通用机器人基础模型 π0 的成果及展望。当前 AI 在物理世界应用存在局限，该公司经八个月研发 π0 以迈向人工物理智能目标。π0 基于大规模数据训练，融合图像、文本与动作，能跨多种机器人执行任务并可微调适应复杂场景。其通过独特架构从机器人具身经验获取物理智能，在洗衣、清理餐桌、组装盒子等任务上表现优于其他模型。我们的通才机器人策略使用预先训练。

2025-02-24 18:41:16 1197

原创【机器人+模仿学习】Diffusion Policy: 通过行动扩散的视觉运动策略学习Visuomotor Policy Learning via Action Diffusion

扩散策略，这是一种通过将机器人的视觉运动策略表示为条件去噪扩散过程来生成机器人行为的新方法

2025-02-24 17:54:03 1750

台大李宏毅教授VAE+GANs的讲解ppt Unsupervised Learning Generation ppt

台大李宏毅教授VAE+GANs的讲解ppt 官网：https://speech.ee.ntu.edu.tw/~tlkagk/courses/ML_2016/Lecture/VAE%20(v5).pdf 也可以参考其他人的资源 https://blog.csdn.net/sinat_25346307/article/details/79108110

2024-05-27

VAE最简单代码实现，手写字符的预训练模型 checkpoint-8.pth

用作博客演示与复现

2024-05-27

【hugggingface】批量加速下载HuggingFace上的模型

2024-03-06

检测标注软件（labelImg labelme ）（目标检测、分割）

labelImg 可以输出voc和 yolo的标注格式 labelme 可输出json并转化为多种格式 windows下直接运行链接： https://gitee.com/monkeycc/labelme/releases/tag/v5.2.0.post4 https://github.com/wkentaro/labelme/releases/tag/v5.2.0.post4 https://gitee.com/monkeycc/anylabeling https://github.com/HumanSignal/labelImg https://github.com/HumanSignal/labelImg/releases

2023-09-14

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

台大 李宏毅教授VAE+GANs的讲解ppt Unsupervised Learning Generation ppt

VAE最简单代码实现，手写字符的预训练模型 checkpoint-8.pth

【hugggingface】批量加速下载HuggingFace上的模型

检测标注软件（labelImg labelme ） （目标检测、分割）

图片感兴趣区域ROI获取-鼠标选择矩阵区域+不规则多边形区域（anoconda3.4+spyder+python3.5+opencv3.4）

旋转框标注软件rolabelImg（win10可用）

C语言2种方式实现简单单链表的创建

空空如也

台大李宏毅教授VAE+GANs的讲解ppt Unsupervised Learning Generation ppt

检测标注软件（labelImg labelme ）（目标检测、分割）