CV及LLM常见名词解释

最新推荐文章于 2024-12-04 04:29:26 发布

KiraFenvy

最新推荐文章于 2024-12-04 04:29:26 发布

阅读量922

点赞数 3

分类专栏：论文笔记 paper 文章标签：笔记人工智能计算机视觉

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_51371693/article/details/136348045

版权

本文解释了CV和LLM中常见的技术术语，如Embedding、Latent、Noise等，以及它们在StableDiffusion模型中的作用，包括编码器（Encoder）、解码器（Decoder）和随机数生成器（RNG）在生成过程中的关键角色。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

CV及LLM常见名词解释

看论文的时候，有些术语虽然常见但是却让人很难理解具体含义，如noise等，这里是一些常见术语的解释，同时也给出了这些术语所在的上下文及模型

例1：Stable Diffusion的文生图模块
在这里插入图片描述

Embedding：这是指将输入的文本（如“an astronaut riding a horse”）转换成一个高维空间中的向量表示。这个过程通常通过一个文本编码器（Text encoder）完成，它可以捕捉和编码文本的语义信息。Embedding向量是一个密集的向量，它将文本的信息压缩进一个固定长度的格式，以便模型可以处理。
Latent：这是指在模型中的隐藏层表示，它是一个在生成过程中的中间状态。在图像生成模型中，latent通常是指从初始噪声（noise）状态逐渐转换成有意义图像的那些中间状态的数据表示。它是模型内部的一个或多个层的输出，这些层试图捕捉输入数据的抽象特征。
Noise：在这个上下文中，noise是指在生成过程的开始被引入的随机数据。在图中的模型中，它通常是一个随机生成的初始图像（或图像块），这个随机噪声图像通过循环经过一个扩散模型（Diffusion model）被逐渐转换成一个具有特定意义的图像。在扩散模型中，噪声是被逐步减少的，而与之相对的，图像的特征则逐步增强。
Encoder

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。