以下为文生图(Text-to-Image)、文生视频(Text-to-Video)大模型领域的高频面试题及深度解析,涵盖技术原理、SOTA模型、前沿进展及演进路线。
一、文生图(Text-to-Image)模型
面试题1:简述Stable Diffusion的核心技术演进,并说明其如何解决DDPM的缺陷?
答案:
- DDPM(基础扩散模型)的缺陷:
① 计算量大:在像素空间直接扩散,生成高分辨率图像成本高;
② 无条件控制:无法根据文本提示生成特定内容。 - Stable Diffusion(SD)的改进:
- 潜在空间扩散(LDM):
- 引入预训练VAE,将图像压缩至潜在空间(下采样因子f=4~8),显著降低计算复杂度。
- Cross-Attention条件控制:
- 在U-Net中嵌入文本编码器(如CLIP),通过注意力机制对齐图文特征。
- 开源生态优化:
- 支持LoRA微调、ControlNet结构控制,实现风格定制与细节编辑。
- 潜在空间扩散(LDM):
技术演进路线:
graph LR
A[DDPM:像素空间扩散] --> B[LDM:潜在空间压缩]
B --> C[Stable Diffusion:开源+条件控制]
C --> D[商业化版本:SDXL/Seedream 3.0]
面试题2:当前文生图模型的评测指标有哪些?为何机器评价与人工评价存在差异?
答案:
- 主流评测指标:
指标 作用 局限性 FID(Fréchet距离) 衡量生成与真实图像分布差异<

最低0.47元/天 解锁文章
787

被折叠的 条评论
为什么被折叠?



