寻丶幽风-CSDN博客

原创论文阅读笔记——Autoregressive Image Generation without Vector Quantization

Autoregressive Image Generation without Vector Quantization 论文阅读笔记

2025-07-03 22:14:12 1322 1

原创论文阅读笔记——Harmonizing Visual Representations for Unified Multimodal Understanding and Generation

Harmonizing Visual Representations for Unified Multimodal Understanding and Generation 论文阅读笔记

2025-07-03 17:17:19 454 1

原创论文阅读笔记——VGGT: Visual Geometry Grounded Transformer

VGGT: Visual Geometry Grounded Transformer 论文阅读笔记

2025-07-02 14:41:12 1414 1

原创论文阅读笔记——NoPoSplat

论文阅读笔记 NO POSE, NO PROBLEM: SURPRISINGLY SIMPLE 3D GAUSSIAN SPLATS FROM SPARSE UNPOSED IMAGES

2025-07-01 16:04:54 1194 1

原创论文阅读笔记——ComfyMind: Toward General-Purpose Generation via Tree-Based Planning and Reactive Feedback

ComfyMind: Toward General-Purpose Generation via Tree-Based Planning and Reactive Feedback 论文阅读笔记

2025-06-09 10:58:24 853 1

原创论文阅读笔记——Muffin: Testing Deep Learning Libraries via Neural Architecture Fuzzing

Muffin: Testing Deep Learning Libraries via Neural Architecture Fuzzing 论文阅读笔记

2025-06-09 10:55:29 913 1

原创论文阅读笔记——D3: Differential Testing of Distributed Deep Learning With Model Generation

D3: Differential Testing of Distributed Deep Learning With Model Generation 论文阅读笔记

2025-06-07 22:37:43 1115 1

原创论文阅读笔记——Enhancing Differential Testing With LLMs For Testing Deep Learning Libraries

Enhancing Differential Testing With LLMs For Testing Deep Learning Libraries 论文阅读笔记

2025-06-07 22:35:00 734 1

原创论文阅读笔记——Large Language Models Are Zero-Shot Fuzzers

Large Language Models Are Zero-Shot Fuzzers: Fuzzing Deep-Learning Libraries via Large Language Models 论文阅读笔记

2025-06-04 15:48:37 1535 2

原创论文阅读笔记——FLUX.1 Kontext: Flow Matching for In-Context Image Generation and Editing in Latent Space

FLUX.1 Kontext: Flow Matching for In-Context Image Generation and Editing in Latent Space 论文阅读笔记

2025-06-02 15:33:06 3656 1

原创论文阅读笔记——Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset

Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset 论文阅读笔记

2025-06-01 12:54:58 988 1

原创论文阅读笔记——FLOW MATCHING FOR GENERATIVE MODELING

FLOW MATCHING FOR GENERATIVE MODELING 论文阅读笔记

2025-05-30 19:26:47 2701 1

原创论文阅读笔记——MetaMorph: Multimodal Understanding and Generation via Instruction Tuning

MetaMorph: Multimodal Understanding and Generation via Instruction Tuning 论文阅读笔记

2025-05-30 19:23:22 1202 1

原创论文阅读笔记——In-Context Edit

In-Context Edit: Enabling Instructional Image Editing with In-Context Generation in Large Scale Diffusion Transformer 论文阅读笔记

2025-05-28 15:44:52 1668 1

原创论文阅读笔记——Step1X-Edit: A Practical Framework for General Image Editing

Step1X-Edit: A Practical Framework for General Image Editing 论文阅读笔记

2025-05-27 23:47:46 1644 1

原创论文阅读笔记——Nexus-Gen: A Unified Model for Image Understanding, Generation, and Editing

Nexus-Gen: A Unified Model for Image Understanding, Generation, and Editing 论文阅读笔记

2025-05-27 22:42:36 1291 1

原创论文阅读笔记——ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision

ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision 论文阅读笔记

2025-05-26 20:51:25 376 1

原创论文阅读笔记——Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model

Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model 论文阅读笔记

2025-05-26 16:26:01 1317 1

原创论文阅读笔记——Janus，Janus Pro

Janus、Janus Pro 论文阅读笔记

2025-05-25 18:40:34 1575 1

原创论文阅读笔记——Emerging Properties in Unified Multimodal Pretraining

Emerging Properties in Unified Multimodal Pretraining 论文阅读笔记

2025-05-24 19:08:26 1562 1

原创论文阅读笔记——PixArt-α，PixArt-δ

PixArt-α，PixArt-δ 论文阅读笔记

2025-05-22 20:15:07 1233 1

原创论文阅读笔记——双流网络

Two-Stream Convolutional Networks for Action Recognition in Videos 论文阅读笔记

2025-05-14 17:50:45 853 1

原创论文阅读笔记——Interleave-VLA: Enhancing Robot Manipulation with Interleaved Image-Text Instructions

Interleave-VLA: Enhancing Robot Manipulation with Interleaved Image-Text Instructions 论文阅读笔记

2025-05-07 14:06:31 1206 1

原创论文阅读笔记——ROBOGROUND: Robotic Manipulation with Grounded Vision-Language Priors

ROBOGROUND: Robotic Manipulation with Grounded Vision-Language Priors 论文阅读笔记

2025-05-06 23:24:24 1593 1

原创论文阅读笔记——STDArm

STDArm: Transferring Visuomotor Policies From Static Data Training to Dynamic Robot Manipulation 论文阅读笔记

2025-05-04 11:26:26 1751 1

原创论文阅读笔记——TesserAct: Learning 4D Embodied World Models

TesserAct: Learning 4D Embodied World Models 论文阅读笔记

2025-05-02 13:08:02 1786 1

原创论文阅读笔记——Phoenix: A Motion-based Self-Reflection Framework for Fine-grained Robotic Action Correction

Phoenix: A Motion-based Self-Reflection Framework for Fine-grained Robotic Action Correction 论文阅读笔记

2025-04-30 10:32:22 1043 1

原创论文阅读笔记——ZeroGrasp: Zero-Shot Shape Reconstruction Enabled Robotic Grasping

ZeroGrasp: Zero-Shot Shape Reconstruction Enabled Robotic Grasping 论文阅读笔记

2025-04-25 16:59:39 1414 1

原创论文阅读笔记——π0.5: a Vision-Language-Action Model with Open-World Generalization

π0.5: a Vision-Language-Action Model with Open-World Generalization 论文阅读笔记

2025-04-24 10:04:09 3085 1

原创论文阅读笔记——A0: An Affordance-Aware Hierarchical Model for General Robotic Manipulation

A0: An Affordance-Aware Hierarchical Model for General Robotic Manipulation 论文阅读笔记，其核心创新在于将任务分解为**高层空间可操作性推理**与**底层动作执行**，通过跨平台的**具身无关可操作性表示**（Embodiment-Agnostic Affordance Representation）预测物体中心的接触点与轨迹，实现多机器人系统的泛化能力。

2025-04-21 12:00:00 1844 1