AR
文章平均质量分 54
不当菜鸡的程序媛
你若盛开,清风自来
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Textual Inversion引入新的可学习的Token
Textual Inversion 没有改变 CLIP 的词表大小,而是通过。来实现新概念的学习。这是一种"语义重映射"而非"词表扩展"原创 2025-09-24 16:21:14 · 171 阅读 · 0 评论 -
VAR的教师强制teacher forcing
训练时:使用真实的前缀,预测下一个尺度(推理时:使用模型自己生成的前缀,自回归生成下一个尺度。原创 2025-09-03 21:58:47 · 267 阅读 · 0 评论 -
Dissecting VAR (一):从VQ到Multi-Scale RQ
前两天VAR拿到了NeurIPS 2024最佳论文,之前刚放到arXiv上的时候只是简单刷了一下,加了个github star,不过这两天细细读过之后才品出味道来。这个短系列将详细梳理VAR的细节与其关键技术,并展望一些拓展的可能性。本文首先介绍VQ相关。转载 2025-08-29 10:15:44 · 118 阅读 · 0 评论 -
AR模型的text encoder和 image encoder分别是什么?
组件传统扩散模型 (如Stable Diffusion)Visual AutoRegressive (VAR) 模型独立的CLIP Text Encoder或T5分词器 + 嵌入层,是模型前端的一部分独立的,用于预处理图像为token核心 backboneUNet(去噪扩散模型)单一的Transformer(自回归模型)工作流文本编码 → 引导UNet在潜空间去噪 → VAE解码文本分词 → 与图像token拼接 → Transformer自回归生成图像token → VQ解码输出表示。原创 2025-08-26 15:57:18 · 867 阅读 · 0 评论 -
自回归(Auto-Regressive, AR),自回归图像生成过程
使用一个自回归 Transformer 模型,根据文本嵌入 \( c \) 和已生成的前缀图像 token 序列 \( x_{1 \sim t-1} \),预测下一个图像 token \( x_t \)。其中 \( l_t \) 是基于完整文本的 logits,\( l_t' \) 是无条件(或无文本)的 logits,\( s \) 是引导强度。自回归模型的训练目标是**最大化图像 token 序列的条件似然**,即最小化**交叉熵损失(Cross-Entropy Loss)**。原创 2025-08-24 15:04:49 · 580 阅读 · 0 评论
分享