CV及LLM常见名词解释

本文解释了CV和LLM中常见的技术术语,如Embedding、Latent、Noise等,以及它们在StableDiffusion模型中的作用,包括编码器(Encoder)、解码器(Decoder)和随机数生成器(RNG)在生成过程中的关键角色。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

CV及LLM常见名词解释

看论文的时候,有些术语虽然常见但是却让人很难理解具体含义,如noise等,这里是一些常见术语的解释,同时也给出了这些术语所在的上下文及模型

例1:Stable Diffusion的文生图模块
在这里插入图片描述

  • Embedding:这是指将输入的文本(如“an astronaut riding a horse”)转换成一个高维空间中的向量表示。这个过程通常通过一个文本编码器(Text encoder)完成,它可以捕捉和编码文本的语义信息。Embedding向量是一个密集的向量,它将文本的信息压缩进一个固定长度的格式,以便模型可以处理。
  • Latent:这是指在模型中的隐藏层表示,它是一个在生成过程中的中间状态。在图像生成模型中,latent通常是指从初始噪声(noise)状态逐渐转换成有意义图像的那些中间状态的数据表示。它是模型内部的一个或多个层的输出,这些层试图捕捉输入数据的抽象特征。
  • Noise:在这个上下文中,noise是指在生成过程的开始被引入的随机数据。在图中的模型中,它通常是一个随机生成的初始图像(或图像块),这个随机噪声图像通过循环经过一个扩散模型(Diffusion model)被逐渐转换成一个具有特定意义的图像。在扩散模型中,噪声是被逐步减少的,而与之相对的,图像的特征则逐步增强。
  • Encoder
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值